論文の概要: Olmo 3
- arxiv url: http://arxiv.org/abs/2512.13961v1
- Date: Mon, 15 Dec 2025 23:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.523652
- Title: Olmo 3
- Title(参考訳): オルモ3
- Authors: Team Olmo, :, Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, David Graham, David Heineman, Dirk Groeneveld, Faeze Brahman, Finbarr Timbers, Hamish Ivison, Jacob Morrison, Jake Poznanski, Kyle Lo, Luca Soldaini, Matt Jordan, Mayee Chen, Michael Noukhovitch, Nathan Lambert, Pete Walsh, Pradeep Dasigi, Robert Berry, Saumya Malik, Saurabh Shah, Scott Geng, Shane Arora, Shashank Gupta, Taira Anderson, Teng Xiao, Tyler Murray, Tyler Romero, Victoria Graf, Akari Asai, Akshita Bhagia, Alexander Wettig, Alisa Liu, Aman Rangapur, Chloe Anastasiades, Costa Huang, Dustin Schwenk, Harsh Trivedi, Ian Magnusson, Jaron Lochner, Jiacheng Liu, Lester James V. Miranda, Maarten Sap, Malia Morgan, Michael Schmitz, Michal Guerquin, Michael Wilson, Regan Huff, Ronan Le Bras, Rui Xin, Rulin Shao, Sam Skjonsberg, Shannon Zejiang Shen, Shuyue Stella Li, Tucker Wilde, Valentina Pyatkin, Will Merrill, Yapei Chang, Yuling Gu, Zhiyuan Zeng, Ashish Sabharwal, Luke Zettlemoyer, Pang Wei Koh, Ali Farhadi, Noah A. Smith, Hannaneh Hajishirzi,
- Abstract要約: Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。
私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
- 参考スコア(独自算出の注目度): 195.36170588805305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Olmo 3, a family of state-of-the-art, fully-open language models at the 7B and 32B parameter scales. Olmo 3 model construction targets long-context reasoning, function calling, coding, instruction following, general chat, and knowledge recall. This release includes the entire model flow, i.e., the full lifecycle of the family of models, including every stage, checkpoint, data point, and dependency used to build it. Our flagship model, Olmo 3 Think 32B, is the strongest fully-open thinking model released to-date.
- Abstract(参考訳): 我々は、7Bおよび32Bパラメータスケールで最先端で完全にオープンな言語モデルのファミリーであるOlmo 3を紹介する。
Olmo 3モデル構築は、長文推論、関数呼び出し、コーディング、命令フォロー、一般的なチャット、知識リコールをターゲットとしている。
このリリースには、モデルフロー全体、すなわち、すべてのステージ、チェックポイント、データポイント、ビルドに使用される依存性を含むモデルのファミリーの全ライフサイクルが含まれている。
私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
関連論文リスト
- Llama-Nemotron: Efficient Reasoning Models [131.54943004304656]
ヘテロジニアス推論モデルの開族であるLlama-Nemotronシリーズを導入する。
サイズはNano(8B)、Super(49B)、Ultra(253B)の3種類。
論文 参考訳(メタデータ) (2025-05-02T01:35:35Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。
OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。
5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文 参考訳(メタデータ) (2024-09-03T17:08:20Z) - Language Resources for Dutch Large Language Modelling [0.0]
Llama 2 13Bモデルの微調整版を2種類導入する。
我々は、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:06:06Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Language Models that Seek for Knowledge: Modular Search & Generation for
Dialogue and Prompt Completion [44.47066107574256]
我々のSeeKeR法は,探索,知識生成,最終的な応答生成という3つのモジュールタスクに1つのLMを適用する。
SeeKeRを対話モデルとして使用する場合、最先端モデルであるBlenderBot 2よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-24T17:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。