論文の概要: Relative Overfitting and Accept-Reject Framework
- arxiv url: http://arxiv.org/abs/2505.07783v4
- Date: Mon, 07 Jul 2025 13:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.34614
- Title: Relative Overfitting and Accept-Reject Framework
- Title(参考訳): 相対オーバーフィッティングとアクセプション・リジェクト・フレームワーク
- Authors: Yanxin Liu, Yunqi Zhang,
- Abstract要約: 本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
- 参考スコア(独自算出の注目度): 5.465098504510676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Large Language Models (LLMs) currently faces significant challenges. Model assembly is widely considered a promising solution to break through these performance bottlenecks. However, current ensembling methods are primarily guided by the statistical expectation that combining multiple models over large samples will lead to performance gains. We propose an ensemble framework that transitions from such stochastic, sample-dependent methods to a regular, controllable approach based on fine-grained model segmentation. This regularity governs how models are segmented to ensure performance improvement, how the magnitude of this improvement varies with model selection, and what factors determine its theoretical maximum. To formalize this pattern, we introduce the concept of'relative overfitting,' which is derived from the performance discrepancies between constituent models and builds a bridge between ensemble outcomes and the inherent attributes of these models. We detail the patterns of this framework within the domain of NLP and briefly describe its extensibility to other fields, such as computer vision (CV) and AI for science. Our approach was validated using both custom-built and pre-trained mainstream models across diverse benchmarks, including language modeling, long-context tasks, and question-answering (QA). The results indicate that the ensemble rules we proposed are generally effective and that we provide a rigorous proof of these rules in certain experimental scenarios. The proposed framework offers a new perspective for understanding ensemble theory and provides a systematic approach to addressing the performance bottlenecks of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは現在、重大な課題に直面しています。
モデルアセンブリは、これらのパフォーマンスボトルネックを突破するための有望なソリューションとして広く考えられている。
しかし、現在のアンサンブル法は主に、大規模なサンプルに複数のモデルを組み合わせることで性能が向上するという統計的な期待によって導かれる。
本稿では,このような確率的,サンプル依存的な手法から,きめ細かいモデルセグメンテーションに基づく規則的,制御可能なアプローチへ移行するアンサンブルフレームワークを提案する。
この規則性は、モデルが性能改善のためにセグメント化される方法、この改善の規模がモデル選択によってどのように変化するか、そしてその理論的な最大値を決定する要因を規定する。
このパターンを形式化するために、構成モデル間の性能の相違から派生した「相対オーバーフィッティング」の概念を導入し、アンサンブル結果とそれらのモデル固有の特性の橋渡しを行う。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIといった他の分野への拡張性を簡潔に記述する。
提案手法は,言語モデリング,長期コンテキストタスク,質問応答(QA)など,さまざまなベンチマークにおいて,カスタムビルドモデルと事前学習モデルの両方を用いて検証した。
その結果,提案したアンサンブル規則は概ね有効であり,特定の実験シナリオにおいてこれらの規則の厳密な証明が得られた。
提案フレームワークは、アンサンブル理論を理解するための新しい視点を提供し、LLMの性能ボトルネックに対処するための体系的なアプローチを提供する。
関連論文リスト
- Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward [10.914414815406275]
近年,音声基盤エンコーダと大規模言語モデル(LLM)の線形接続を訓練することで,このアーキテクチャが強力なASR機能を実現することが実証されている。
印象的な結果にもかかわらず、これらの単純なアプローチが様々なシナリオや発話条件で十分に堅牢であるかどうかは不明だ。
本稿ではSLAM-ASRアーキテクチャを効果的に活用する方法に関する知見を提供する。
論文 参考訳(メタデータ) (2024-11-06T12:22:04Z) - Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling [23.447466392929712]
大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。
既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。
textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
論文 参考訳(メタデータ) (2024-10-03T08:42:38Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble [11.542472900306745]
マルチComprehension (MC) Ensemble は,OOD (Out-of-Distribution) 特徴表現を拡大するための戦略として提案されている。
OOD検出におけるMC Ensemble戦略の優れた性能を示す実験結果を得た。
これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-24T18:43:04Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。
私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。
本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文 参考訳(メタデータ) (2021-08-12T17:44:51Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。