論文の概要: Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance
- arxiv url: http://arxiv.org/abs/2507.22448v1
- Date: Wed, 30 Jul 2025 07:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.076472
- Title: Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance
- Title(参考訳): Falcon-H1: 効率とパフォーマンスを規定するハイブリッドヘッド言語モデルのファミリー
- Authors: Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha,
- Abstract要約: Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。
Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。
最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
- 参考スコア(独自算出の注目度): 7.261605702995345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we introduce Falcon-H1, a new series of large language models (LLMs) featuring hybrid architecture designs optimized for both high performance and efficiency across diverse use cases. Unlike earlier Falcon models built solely on Transformer or Mamba architectures, Falcon-H1 adopts a parallel hybrid approach that combines Transformer-based attention with State Space Models (SSMs), known for superior long-context memory and computational efficiency. We systematically revisited model design, data strategy, and training dynamics, challenging conventional practices in the field. Falcon-H1 is released in multiple configurations, including base and instruction-tuned variants at 0.5B, 1.5B, 1.5B-deep, 3B, 7B, and 34B parameters. Quantized instruction-tuned models are also available, totaling over 30 checkpoints on Hugging Face Hub. Falcon-H1 models demonstrate state-of-the-art performance and exceptional parameter and training efficiency. The flagship Falcon-H1-34B matches or outperforms models up to 70B scale, such as Qwen3-32B, Qwen2.5-72B, and Llama3.3-70B, while using fewer parameters and less data. Smaller models show similar trends: the Falcon-H1-1.5B-Deep rivals current leading 7B-10B models, and Falcon-H1-0.5B performs comparably to typical 7B models from 2024. These models excel across reasoning, mathematics, multilingual tasks, instruction following, and scientific knowledge. With support for up to 256K context tokens and 18 languages, Falcon-H1 is suitable for a wide range of applications. All models are released under a permissive open-source license, underscoring our commitment to accessible and impactful AI research.
- Abstract(参考訳): 本稿では,多種多様なユースケースを対象としたハイパフォーマンスと効率の両方に最適化されたハイブリッドアーキテクチャを特徴とする,新たな大規模言語モデル(LLM)であるFalcon-H1を紹介する。
TransformerやMambaアーキテクチャにのみ依存する以前のFalconモデルとは異なり、Falcon-H1はTransformerベースの注意とステートスペースモデル(SSM)を組み合わせた並列ハイブリッドアプローチを採用しており、より優れた長期記憶と計算効率で知られている。
我々は、モデル設計、データストラテジー、トレーニングダイナミクスを体系的に再検討し、この分野における従来の実践に挑戦した。
Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。
量子命令調整モデルも利用可能で、Hugging Face Hubで合計30以上のチェックポイントがある。
Falcon-H1モデルは最先端の性能と例外的なパラメータと訓練効率を示す。
フラッグシップのファルコン-H1-34Bは、Qwen3-32B、Qwen2.5-72B、Llama3.3-70Bなどの70Bスケールのモデルに適合し、より少ないパラメータと少ないデータを使用する。
ファルコンH1-1.5B-ディープは現在の7B-10Bモデルと競合し、ファルコンH1-0.5Bは2024年から一般的な7Bモデルと互換性がある。
これらのモデルは、推論、数学、多言語タスク、指示に従うこと、科学的知識を網羅する。
最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
すべてのモデルは寛容なオープンソースライセンスの下でリリースされ、アクセス可能で影響力のあるAI研究へのコミットメントを裏付けています。
関連論文リスト
- Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.47008715747822]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。
私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。
Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (2025-04-04T17:41:58Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Falcon2-11B Technical Report [12.473984346805011]
5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、ビジョン・トゥ・テキストモデルであるFalcon2-11B-vlmを紹介する。
我々は,多段階アプローチによるFalcon2-11Bの訓練中に得られた知見を報告する。
また,学習期間中のバッチサイズを倍増させる効果と,学習率によるトレーニング損失のスパイクの影響を報告する。
論文 参考訳(メタデータ) (2024-07-20T14:23:15Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - The Falcon Series of Open Language Models [36.93493444130304]
さまざまな高品質コーパスで訓練された因果デコーダのみのモデルとして,7B,40B,180Bというファルコンシリーズを紹介した。
最大のモデルであるFalcon-180Bは3.5兆個のテキストトークンで訓練されている。
Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。
論文 参考訳(メタデータ) (2023-11-28T15:12:47Z) - Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph
Embeddings [4.317340121054659]
知識グラフ埋め込み(KGE)モデルのためのシンプルで効果的なパフォーマンス向上戦略を提案する。
モデルのトレーニングを200の埋め込みサイズと並行して6回繰り返し、テストのために6つの別々のモデルを組み合わせています。
このアプローチにより,様々なグラフパターンをモデル化する上で,様々なモデルがよりうまく対処できることが示される。
論文 参考訳(メタデータ) (2021-04-11T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。