論文の概要: Gemini 1.5: Unlocking multimodal understanding across millions of tokens
of context
- arxiv url: http://arxiv.org/abs/2403.05530v1
- Date: Fri, 8 Mar 2024 18:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 12:47:51.605125
- Title: Gemini 1.5: Unlocking multimodal understanding across millions of tokens
of context
- Title(参考訳): Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック
- Authors: Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin,
Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou,
Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian
Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault
Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James
Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy,
Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica
Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen
Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand,
Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav
Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke
Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver
Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy
Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone,
Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex
Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby,
Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng,
Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas
Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa
Anne Hendricks, Isabel Gao, Santiago Onta\~n\'on, Oskar Bunyan, Nathan Byrd,
Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei
Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding,
Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma
Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang
Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli,
Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine
He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev,
Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan
Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe
Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan
Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim
Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel,
Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker,
Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James
Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara
von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin
Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova,
Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins,
Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney,
Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock,
Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin
Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko
Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel,
Justin Chiu, Rory Blevins, Zach Gleicher, Adri\`a Recasens, Alban Rrustemi,
Elena Gribovskaya, Aurko Roy, Wiktor Gworek, S\'eb Arnold, Lisa Lee, James
Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad
Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James
Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar,
Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska,
Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem,
Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James
Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon,
Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil
Crone, Anmol Gulati, S\'ebastien Cevey, Jonas Adler, Ada Ma, David Silver,
Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan,
Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah
Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng
Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio
Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar,
Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi
Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon
Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip
Pavetic, Geoff Brown, Vivek Sharma, Mario Lu\v{c}i\'c, Rajkumar Samuel, Josip
Djolonga, Amol Mandhane, Lars Lowe Sj\"osund, Elena Buchatskaya, Elspeth
White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane
Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin,
Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant,
Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand,
Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu
Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad
Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka,
Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan
Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha
Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina
Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas,
Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich,
Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla,
Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe
Barth-Maron, Craig Swanson, Dominika Rogozi\'nska, Alek Andreev, Paul Kishan
Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave
Lacey, Anastasija Ili\'c, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly
Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Rapha\"el Lopez Kaufman,
Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter,
Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine
Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim,
Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer
Greene, Ana\"is White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi
Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan
Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek,
Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco
Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe
Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan,
Hongkun Yu, \c{C}a\u{g}lar \"Unl\"u, David Reid, Zora Tung, Daniel
Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu,
Ricardo Aguilar, Mai Gim\'enez, Jiawei Xia, Olivier Dousse, Willi Gierke,
Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto,
Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson,
Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco
Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek
Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef
Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama,
Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim
Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp
Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, F\'elix de
Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff,
Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich,
Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani,
Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund
Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman,
Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian
Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben
Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro
Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim,
Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam
Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca
Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali
Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff
Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf
Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman
Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt
Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel
Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang,
Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor
Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer,
Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral
Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel
Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee,
Harry Askham and Abhishek Chakladar and Annie Louis and Carl Crous and Hardie
Cate and Dessie Petrova and Michael Quinn and Denese Owusu-Afriyie and
Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr,
Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas,
Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal
Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski,
Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim P\~oder, Roopal
Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun
Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean and Oriol
Vinyals
- Abstract要約: Gemini 1.5 Pro は計算効率の良いマルチモーダル・ミックス・オブ・エキスパート・モデルである。
モダリティ間の長文検索タスクにおいて、ほぼ完璧なリコールを実現する。
Gemini 1.0 Ultraの最先端のパフォーマンスは、幅広いベンチマークで一致または上回っている。
- 参考スコア(独自算出の注目度): 379.372478741563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present the latest model of the Gemini family, Gemini 1.5
Pro, a highly compute-efficient multimodal mixture-of-experts model capable of
recalling and reasoning over fine-grained information from millions of tokens
of context, including multiple long documents and hours of video and audio.
Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks
across modalities, improves the state-of-the-art in long-document QA,
long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's
state-of-the-art performance across a broad set of benchmarks. Studying the
limits of Gemini 1.5 Pro's long-context ability, we find continued improvement
in next-token prediction and near-perfect retrieval (>99%) up to at least 10M
tokens, a generational leap over existing models such as Claude 2.1 (200k) and
GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large
language models at the frontier; when given a grammar manual for Kalamang, a
language with fewer than 200 speakers worldwide, the model learns to translate
English to Kalamang at a similar level to a person who learned from the same
content.
- Abstract(参考訳): 本稿では,Geminiファミリーの最新モデルであるGemini 1.5 Proについて紹介する。これは,複数の長い文書やビデオや音声の時間を含む数百万のコンテキストのトークンから,きめ細かい情報をリコールし,推論することのできる,計算効率の高いマルチモーダル・オブ・エキスパート・モデルである。
Gemini 1.5 Proは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。
Gemini 1.5 Proの長文能力の限界を調べたところ、少なくとも10万個のトークン(Claude 2.1 (200k) や GPT-4 Turbo (128k) といった既存のモデルに対する世代的な飛躍)まで、次のトーケン予測とほぼ完璧な検索(>99%)の改善が継続されていることがわかった。
最後に、フロンティアにおける大きな言語モデルの驚くべき新機能を強調します。世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられたとき、同じコンテンツから学んだ人と同じようなレベルで、英語をKalamangに翻訳することを学ぶ。
関連論文リスト
- Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文 参考訳(メタデータ) (2024-11-15T10:01:52Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Gemini: A Family of Highly Capable Multimodal Models [629.0779987066369]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。
GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。
論文 参考訳(メタデータ) (2023-12-19T02:39:27Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。