論文の概要: Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2601.02346v1
- Date: Mon, 05 Jan 2026 18:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.35963
- Title: Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
- Title(参考訳): Falcon-H1R:効率的なテスト時間スケーリングのためのハイブリッドモデルによる推論フロンティアの推進
- Authors: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid,
- Abstract要約: ファルコンH1RはSOTAの推理モデルと一貫して一致し、性能は2倍から7倍に向上した。
ファルコンH1Rはより高速な推論、トークン効率、より高い精度を組み合わせることで推論効率の3D限界を推し進める。
Falcon-H1Rは、ターゲットモデルトレーニングとアーキテクチャ選択を通じて、コンパクトモデルが堅牢でスケーラブルな推論性能を提供できることを示した。
- 参考スコア(独自算出の注目度): 7.924613201525482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are $2\times$ to $7\times$ larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.
- Abstract(参考訳): この研究は7Bパラメータ推論最適化モデルであるFalcon-H1Rを導入し、小型言語モデル(SLM)による競合推論性能の実現可能性を確立した。
Falcon-H1Rはパラメータ効率で、さまざまな推論集約ベンチマークで2ドルから7ドルまでのSOTA推論モデルの整合性や性能に優れています。
これらの結果は、モデルサイズを増大させることなく、重要なパフォーマンス向上を実現する上で、注意深いデータキュレーションと(効率的なSFTとRLスケーリングの両方を通して)目標とするトレーニング戦略の重要性を強調している。
さらに、Falcon-H1Rはより高速な推論(ハイブリッド並列アーキテクチャ設計による)、トークン効率、高精度な推論を組み合わせ、推論効率の3D限界を推し進めている。
このユニークなブレンドにより、Falcon-H1R-7Bは高度な推論システムをスケールするための実用的なバックボーンとなる。
最近導入されたDeepConfアプローチを活用して、Falcon-H1Rは最先端のテスト時間スケーリング効率を実現し、精度と計算コストの両方で大幅に改善されている。
その結果、Falcon-H1Rは、ターゲットモデルトレーニングとアーキテクチャ選択を通じて、コンパクトモデルが堅牢でスケーラブルな推論性能を提供できることを示した。
関連論文リスト
- Efficient Large Language Models with Zero-Shot Adjustable Acceleration [4.125187280299246]
本稿では、新たな微調整を必要とせず、推論中の動的ハードウェア利用を調整する新しいトレーニングおよび推論手法であるZero-Shot Adjustable Accelerationを紹介する。
実験結果から,本手法は幅広いゼロショット加速をサポートし,ベースラインに比べて最大11倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-01T07:15:25Z) - Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.261605702995345]
Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。
Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。
最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
論文 参考訳(メタデータ) (2025-07-30T07:55:33Z) - ReasoningV: Efficient Verilog Code Generation with Adaptive Hybrid Reasoning Model [7.798551697095774]
ReasoningVは、訓練された内在能力と動的推論適応を統合した、Verilogコード生成のための新しいモデルである。
ReasoningV-5Kは5,000個の機能検証済みインスタンスの高品質なデータセットで、PiraNetサンプルの多次元フィルタリングによる推論パスを生成する。
VerilogEval- humanに対するパス@1精度57.8%のReasoningVの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-04-20T10:16:59Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
Ferretは、LLMのスケーラブルなフルパラメータチューニングを実現するために、ランダム性を共有する最初の一階法である。
フェレットは高い計算効率、通信オーバーヘッドの低減、高速収束を実現する。
論文 参考訳(メタデータ) (2024-09-10T07:28:13Z) - FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。
FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文 参考訳(メタデータ) (2024-04-02T01:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。