論文の概要: Relative Overfitting and Accept-Reject Framework
- arxiv url: http://arxiv.org/abs/2505.07783v4
- Date: Mon, 07 Jul 2025 13:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.34614
- Title: Relative Overfitting and Accept-Reject Framework
- Title(参考訳): 相対オーバーフィッティングとアクセプション・リジェクト・フレームワーク
- Authors: Yanxin Liu, Yunqi Zhang,
- Abstract要約: 本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
- 参考スコア(独自算出の注目度): 5.465098504510676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Large Language Models (LLMs) currently faces significant challenges. Model assembly is widely considered a promising solution to break through these performance bottlenecks. However, current ensembling methods are primarily guided by the statistical expectation that combining multiple models over large samples will lead to performance gains. We propose an ensemble framework that transitions from such stochastic, sample-dependent methods to a regular, controllable approach based on fine-grained model segmentation. This regularity governs how models are segmented to ensure performance improvement, how the magnitude of this improvement varies with model selection, and what factors determine its theoretical maximum. To formalize this pattern, we introduce the concept of'relative overfitting,' which is derived from the performance discrepancies between constituent models and builds a bridge between ensemble outcomes and the inherent attributes of these models. We detail the patterns of this framework within the domain of NLP and briefly describe its extensibility to other fields, such as computer vision (CV) and AI for science. Our approach was validated using both custom-built and pre-trained mainstream models across diverse benchmarks, including language modeling, long-context tasks, and question-answering (QA). The results indicate that the ensemble rules we proposed are generally effective and that we provide a rigorous proof of these rules in certain experimental scenarios. The proposed framework offers a new perspective for understanding ensemble theory and provides a systematic approach to addressing the performance bottlenecks of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは現在、重大な課題に直面しています。
モデルアセンブリは、これらのパフォーマンスボトルネックを突破するための有望なソリューションとして広く考えられている。
しかし、現在のアンサンブル法は主に、大規模なサンプルに複数のモデルを組み合わせることで性能が向上するという統計的な期待によって導かれる。
本稿では,このような確率的,サンプル依存的な手法から,きめ細かいモデルセグメンテーションに基づく規則的,制御可能なアプローチへ移行するアンサンブルフレームワークを提案する。
この規則性は、モデルが性能改善のためにセグメント化される方法、この改善の規模がモデル選択によってどのように変化するか、そしてその理論的な最大値を決定する要因を規定する。
このパターンを形式化するために、構成モデル間の性能の相違から派生した「相対オーバーフィッティング」の概念を導入し、アンサンブル結果とそれらのモデル固有の特性の橋渡しを行う。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIといった他の分野への拡張性を簡潔に記述する。
提案手法は,言語モデリング,長期コンテキストタスク,質問応答(QA)など,さまざまなベンチマークにおいて,カスタムビルドモデルと事前学習モデルの両方を用いて検証した。
その結果,提案したアンサンブル規則は概ね有効であり,特定の実験シナリオにおいてこれらの規則の厳密な証明が得られた。
提案フレームワークは、アンサンブル理論を理解するための新しい視点を提供し、LLMの性能ボトルネックに対処するための体系的なアプローチを提供する。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward [10.914414815406275]
近年,音声基盤エンコーダと大規模言語モデル(LLM)の線形接続を訓練することで,このアーキテクチャが強力なASR機能を実現することが実証されている。
印象的な結果にもかかわらず、これらの単純なアプローチが様々なシナリオや発話条件で十分に堅牢であるかどうかは不明だ。
本稿ではSLAM-ASRアーキテクチャを効果的に活用する方法に関する知見を提供する。
論文 参考訳(メタデータ) (2024-11-06T12:22:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。