Fugu-MT 論文翻訳(概要): Megrez-Omni Technical Report

論文の概要: Megrez-Omni Technical Report

arxiv url: http://arxiv.org/abs/2502.15803v1
Date: Wed, 19 Feb 2025 06:14:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.784548
Title: Megrez-Omni Technical Report
Title（参考訳）: Megrez-Omni技術報告
Authors: Boxun Li, Yadong Li, Zhiyuan Li, Congyi Liu, Weilin Liu, Guowei Niu, Zheyue Tan, Haiyang Xu, Zhuyu Yao, Tao Yuan, Dong Zhou, Yueqing Zhuang, Shengen Yan, Guohao Dai, Yu Wang,
Abstract要約: Megrezモデルは、高速な推論、コンパクト性、堅牢なエッジサイドインテリジェンスを提供するように設計されている。 Megrez-3B-Instructには、高精度、高速、使いやすさ、幅広いアプリケーションなど、いくつかの利点がある。 Megrez-3B-Omniは、画像、テキスト、音声分析をサポートするデバイス上でのマルチモーダルなLLMである。
参考スコア（独自算出の注目度）: 21.397366563719782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present the Megrez models, comprising a language model (Megrez-3B-Instruct) and a multimodal model (Megrez-3B-Omni). These models are designed to deliver fast inference, compactness, and robust edge-side intelligence through a software-hardware co-design approach. Megrez-3B-Instruct offers several advantages, including high accuracy, high speed, ease of use, and a wide range of applications. Building on Megrez-3B-Instruct, Megrez-3B-Omni is an on-device multimodal understanding LLM that supports image, text, and audio analysis. It achieves state-of-the-art accuracy across all three modalities and demonstrates strong versatility and robustness, setting a new benchmark for multimodal AI models.
Abstract（参考訳）: 本稿では,言語モデル(Megrez-3B-Instruct)とマルチモーダルモデル(Megrez-3B-Omni)からなるMegrezモデルを提案する。これらのモデルは、ソフトウェアハードウェアの共同設計アプローチを通じて、高速な推論、コンパクト性、堅牢なエッジサイドインテリジェンスを提供するように設計されている。 Megrez-3B-Instructには、高精度、高速、使いやすさ、幅広いアプリケーションなど、いくつかの利点がある。 Megrez-3B-Instruct上に構築されているMegrez-3B-Omniは、画像、テキスト、音声分析をサポートするデバイス上でのマルチモーダル理解LLMである。 3つのモードすべてにわたって最先端の精度を実現し、強力な汎用性と堅牢性を示し、マルチモーダルAIモデルの新たなベンチマークを設定する。

関連論文リスト

Megrez2 Technical Report [21.488594968935548]
本稿では,デバイスネイティブデプロイメントに最適化された,軽量かつ高性能な言語モデルであるMegrez2を紹介する。 Megrez2はクロスレイヤーなエキスパート共有機構を導入し、パラメータの総数を大幅に削減した。 Megrez2アーキテクチャの最初のインスタンス化として,5トリリオントーケンコーパスで事前学習したMegrez2-Previewモデルを導入する。
論文参考訳（メタデータ） (2025-07-23T17:43:07Z)
Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。 Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文参考訳（メタデータ） (2025-05-27T12:03:30Z)
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文参考訳（メタデータ） (2025-05-22T17:59:39Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文参考訳（メタデータ） (2024-08-09T03:25:42Z)
S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文参考訳（メタデータ） (2024-06-26T12:45:43Z)
Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文参考訳（メタデータ） (2024-05-20T15:23:19Z)
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent [10.998608318944985]
マルチモーダルAIエージェントは、さまざまなタイプのデータから処理および学習する能力によって特徴付けられる。本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。
論文参考訳（メタデータ） (2024-04-17T15:07:06Z)
Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [26.65107475147534]
本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
論文参考訳（メタデータ） (2024-02-05T17:26:49Z)
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。開発モデルと他のドメインとの橋渡しも目指しています。
論文参考訳（メタデータ） (2024-01-30T18:18:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。