論文の概要: NanoNet: Parameter-Efficient Learning with Label-Scarce Supervision for Lightweight Text Mining Model
- arxiv url: http://arxiv.org/abs/2602.06093v1
- Date: Thu, 05 Feb 2026 08:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.041781
- Title: NanoNet: Parameter-Efficient Learning with Label-Scarce Supervision for Lightweight Text Mining Model
- Title(参考訳): NanoNet:軽量テキストマイニングモデルのためのラベルスカース・スーパービジョンを用いたパラメータ効率の学習
- Authors: Qianren Mao, Yashuo Luo, Ziqi Qin, Junnan Liu, Weifeng Jiang, Zhijun Chen, Zhuoran Li, Likang Xiao, Chuou Xu, Qili Zhang, Hanwen Hao, Jingzheng Li, Chunghua Lin, Jianxin Li, Philip S. Yu,
- Abstract要約: NanoNetは、限られた監督下でパラメータ効率の学習を実装する軽量テキストマイニングのための新しいフレームワークである。
プロセス全体はパラメータ効率の学習を活用し、トレーニングコストを削減し、監督要件を最小限に抑え、最終的には下流推論のための軽量なモデルを生み出す。
- 参考スコア(独自算出の注目度): 51.055122269052696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The lightweight semi-supervised learning (LSL) strategy provides an effective approach of conserving labeled samples and minimizing model inference costs. Prior research has effectively applied knowledge transfer learning and co-training regularization from large to small models in LSL. However, such training strategies are computationally intensive and prone to local optima, thereby increasing the difficulty of finding the optimal solution. This has prompted us to investigate the feasibility of integrating three low-cost scenarios for text mining tasks: limited labeled supervision, lightweight fine-tuning, and rapid-inference small models. We propose NanoNet, a novel framework for lightweight text mining that implements parameter-efficient learning with limited supervision. It employs online knowledge distillation to generate multiple small models and enhances their performance through mutual learning regularization. The entire process leverages parameter-efficient learning, reducing training costs and minimizing supervision requirements, ultimately yielding a lightweight model for downstream inference.
- Abstract(参考訳): 軽量半教師付き学習(LSL)戦略は,ラベル付きサンプルの保存とモデル推論コストの最小化に有効なアプローチを提供する。
従来の研究はLSLの大規模モデルから小規模モデルへの知識伝達学習と協調学習を効果的に適用してきた。
しかし、そのようなトレーニング戦略は計算集約的であり、局所最適である傾向があるため、最適解を見つけるのが困難になる。
これにより,テキストマイニングの3つの低コストシナリオ(ラベル付き監督,軽量微調整,高速推論モデル)を統合する可能性について検討した。
そこで本研究では,限定的な教師付きパラメータ効率学習を実現する軽量テキストマイニングフレームワークであるNanoNetを提案する。
オンライン知識蒸留を用いて、複数の小さなモデルを生成し、相互学習の正規化を通じてパフォーマンスを向上させる。
プロセス全体はパラメータ効率の学習を活用し、トレーニングコストを削減し、監督要件を最小限に抑え、最終的には下流推論のための軽量なモデルを生み出す。
関連論文リスト
- MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation [50.417769112326546]
MiniRecは、RLベースの大規模言語モデル(LLM)レコメンデーションに適したデータ選択フレームワークである。
重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
論文 参考訳(メタデータ) (2026-02-04T07:15:49Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。
我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-02-27T16:55:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - GPTA: Generative Prompt Tuning Assistant for Synergistic Downstream Neural Network Enhancement with LLMs [11.572835837392867]
本研究はGPTA(Large Language Model assistance training framework)を導入し,プレフィックスプロンプトによる下流タスクモデルのトレーニングを強化する。
LLMのデータ露出を最小限にすることで、下流タスクモデルトレーニングにLLMを適用する際のセキュリティと法的課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T23:04:04Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Low-Resolution Face Recognition In Resource-Constrained Environments [34.13093606945265]
本研究では,非パラメトリック低解像度顔認識モデルを提案する。
少数のラベル付きデータサンプルで、トレーニングの複雑さが低く、低解像度の入力イメージでトレーニングすることができる。
提案モデルの有効性は,LFWとCMU Multi-PIEデータセットの実験によって実証された。
論文 参考訳(メタデータ) (2020-11-23T19:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。