論文の概要: Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2404.12387v1
- Date: Thu, 18 Apr 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.756220
- Title: Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
- Title(参考訳): Reka Core、Flash、Edge - 強力なマルチモーダル言語モデルのシリーズ
- Authors: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie,
- Abstract要約: Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。
Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。
最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
- 参考スコア(独自算出の注目度): 69.35758259895259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .
- Abstract(参考訳): Reka Core、Flash、Edgeは、Rekaによってゼロからトレーニングされた一連の強力なマルチモーダル言語モデルです。
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。
この技術報告では、これらのモデルのいくつかをトレーニングし、総合的な評価結果を提供する。
Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れており、それぞれの計算クラスに対して大きめの値を提供する。
一方、我々の最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
画像質問応答ベンチマーク(例えばMMMU、VQAv2)では、CoreはGPT4-Vと競合する。
一方、マルチモーダルチャットでは、Coreは盲目の第三者による評価設定の下で2番目に好まれるモデルであり、Claude 3 Opusなど他のモデルよりも優れている。
テキストベンチマークでは、Coreは確立されたベンチマーク(例えばMMLU、GSM8K)で他のフロンティアモデルと競合するだけでなく、人間の評価ではGPT4-0613よりも優れている。
ビデオ質問応答(Perception-Test)では、CoreがGemini Ultraより優れています。
モデルは http://chat.reka.ai で出荷されます。
非チェリーピックの定性的な例の展示はhttp://showcase.reka.ai.comで見ることができる。
関連論文リスト
- LLäMmlein: Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。
モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文 参考訳(メタデータ) (2024-11-17T20:44:34Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.878276985702685]
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文 参考訳(メタデータ) (2024-06-20T06:56:19Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。