論文の概要: Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2404.12387v1
- Date: Thu, 18 Apr 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.756220
- Title: Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
- Title(参考訳): Reka Core、Flash、Edge - 強力なマルチモーダル言語モデルのシリーズ
- Authors: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie,
- Abstract要約: Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。
Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。
最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
- 参考スコア(独自算出の注目度): 69.35758259895259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .
- Abstract(参考訳): Reka Core、Flash、Edgeは、Rekaによってゼロからトレーニングされた一連の強力なマルチモーダル言語モデルです。
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。
この技術報告では、これらのモデルのいくつかをトレーニングし、総合的な評価結果を提供する。
Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れており、それぞれの計算クラスに対して大きめの値を提供する。
一方、我々の最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
画像質問応答ベンチマーク(例えばMMMU、VQAv2)では、CoreはGPT4-Vと競合する。
一方、マルチモーダルチャットでは、Coreは盲目の第三者による評価設定の下で2番目に好まれるモデルであり、Claude 3 Opusなど他のモデルよりも優れている。
テキストベンチマークでは、Coreは確立されたベンチマーク(例えばMMLU、GSM8K)で他のフロンティアモデルと競合するだけでなく、人間の評価ではGPT4-0613よりも優れている。
ビデオ質問応答(Perception-Test)では、CoreがGemini Ultraより優れています。
モデルは http://chat.reka.ai で出荷されます。
非チェリーピックの定性的な例の展示はhttp://showcase.reka.ai.comで見ることができる。
関連論文リスト
- Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプト・ウィン・ローズ・トリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.96132079622912]
本稿では,リバスパズルを用いたマルチモーダル大言語モデルの性能評価手法を提案する。
データセットは、画像ベースのワードプレイのオリジナル例333をカバーし、映画、作曲家、主要都市、食品など13のカテゴリを網羅している。
GPT-4VやGemini Proのようなプロプライエタリなモデルは、他のテストモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。