論文の概要: An In-depth Look at Gemini's Language Abilities
- arxiv url: http://arxiv.org/abs/2312.11444v2
- Date: Sun, 24 Dec 2023 12:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:48:25.702281
- Title: An In-depth Look at Gemini's Language Abilities
- Title(参考訳): Geminiの言語能力について
- Authors: Syeda Nahida Akter, Zichun Yu, Aashiq Muhamed, Tianyue Ou, Alex
B\"auerle, \'Angel Alexander Cabrera, Krish Dholakia, Chenyan Xiong, Graham
Neubig
- Abstract要約: OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
- 参考スコア(独自算出の注目度): 49.897870833250494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently released Google Gemini class of models are the first to
comprehensively report results that rival the OpenAI GPT series across a wide
variety of tasks. In this paper, we do an in-depth exploration of Gemini's
language abilities, making two contributions. First, we provide a third-party,
objective comparison of the abilities of the OpenAI GPT and Google Gemini
models with reproducible code and fully transparent results. Second, we take a
closer look at the results, identifying areas where one of the two model
classes excels. We perform this analysis over 10 datasets testing a variety of
language abilities, including reasoning, answering knowledge-based questions,
solving math problems, translating between languages, generating code, and
acting as instruction-following agents. From this analysis, we find that Gemini
Pro achieves accuracy that is close but slightly inferior to the corresponding
GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations
for some of this under-performance, including failures in mathematical
reasoning with many digits, sensitivity to multiple-choice answer ordering,
aggressive content filtering, and others. We also identify areas where Gemini
demonstrates comparably high performance, including generation into non-English
languages, and handling longer and more complex reasoning chains. Code and data
for reproduction can be found at https://github.com/neulab/gemini-benchmark
- Abstract(参考訳): 最近リリースされたGoogle Geminiクラスは、さまざまなタスクでOpenAI GPTシリーズと競合する結果を総合的に報告した最初のモデルだ。
本稿では,geminiの言語能力について深く検討し,2つの貢献を行った。
まず、再現可能なコードと完全な透過的な結果を備えたOpenAI GPTとGoogle Geminiモデルの能力の客観的比較を行う。
次に、2つのモデルクラスのうちの1つが優れている領域を特定する。
我々は、推論、知識に基づく質問への回答、数学の問題解決、言語間の翻訳、コード生成、命令追従エージェントとしての役割など、さまざまな言語能力をテストする10以上のデータセットを分析します。
この分析から、Gemini Proは、ベンチマークした全てのタスクにおいて、対応するGPT 3.5 Turboよりも近いがわずかに劣る精度を実現していることがわかった。
我々はさらに,数桁数による数学的推論の失敗,複数項目の回答順序に対する感度,積極的なコンテンツフィルタリングなど,この低パフォーマンスのいくつかの説明を提供する。
また,非英語言語への生成や,より長く複雑な推論チェーンの処理など,geminiが比較可能なハイパフォーマンスを示す領域も特定した。
コードとデータはhttps://github.com/neulab/gemini-benchmarkにある。
関連論文リスト
- Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language
Models [14.30980373935713]
Googleは、マルチモーダル統合に特化した最先端のMLLMであるGeminiを発表した。
その進歩にもかかわらず、予備ベンチマークは、ジェミニが常識的推論タスクにおいてGPTモデルに遅れていることを示している。
本研究は,複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価する。
論文 参考訳(メタデータ) (2023-12-29T15:57:49Z) - A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.54563675327198]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。
Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか?
Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文 参考訳(メタデータ) (2023-12-19T18:59:22Z) - Gemini: A Family of Highly Capable Multimodal Models [629.0779987066369]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。
GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。
論文 参考訳(メタデータ) (2023-12-19T02:39:27Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。