論文の概要: InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning
- arxiv url: http://arxiv.org/abs/2502.11573v1
- Date: Mon, 17 Feb 2025 09:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:00.603400
- Title: InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning
- Title(参考訳): InfiR : 推論における効果的な小言語モデルと多モーダル小言語モデルの構築
- Authors: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang,
- Abstract要約: 本稿では,効率的な小言語モデル (SLM) とマルチモーダル小言語モデル (MSLM) の開発に焦点をあてる。
推論機能を強化し,エッジデバイスへの展開を容易にする,新たなトレーニングパイプラインを導入する。
InfRは、推論を改善し、採用障壁を減らし、より小さなモデルサイズでプライバシの問題に対処することで、AIシステムの改善を目指している。
- 参考スコア(独自算出の注目度): 46.64087822795915
- License:
- Abstract: Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.
- Abstract(参考訳): MLLM(Large Language Models)とMLLM(Multimodal Large Language Models)は推論能力において大きな進歩を遂げている。
しかし、高い計算要求やプライバシー上の懸念といった問題に直面している。
本稿では,競争的推論能力を維持する効率的な小言語モデル (SLM) とマルチモーダル小言語モデル (MSLM) の開発に焦点をあてる。
開発コストを最小化しながら最先端デバイスへの展開を容易にし,最先端のパフォーマンスを実現するための,新たなトレーニングパイプラインを導入する。
InfR~は、推論を改善し、採用障壁を減らし、より小さなモデルサイズでプライバシの問題に対処することで、AIシステムを改善することを目的としている。
リソースはhttps://github.comで入手できる。
InfiR.com/Reallm-Labs/InfiR。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。
本研究では,SLMの学習における計算的ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文 参考訳(メタデータ) (2024-10-25T10:30:21Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Easy Problems That LLMs Get Wrong [0.0]
大規模言語モデル(LLM)の限界を評価するために設計された包括的な言語ベンチマークを導入する。
一連の簡単な質問を通じて、人間が簡単に管理するタスクを実行するための、よく考えられたモデルの重大な制限を明らかにする。
論文 参考訳(メタデータ) (2024-05-30T02:09:51Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。