論文の概要: How to Improve the Robustness of Closed-Source Models on NLI
- arxiv url: http://arxiv.org/abs/2505.20209v1
- Date: Mon, 26 May 2025 16:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:27.020482
- Title: How to Improve the Robustness of Closed-Source Models on NLI
- Title(参考訳): NLIにおけるクローズドソースモデルのロバスト性を改善する方法
- Authors: Joe Stacey, Lisa Alazraki, Aran Ubhi, Beyza Ermis, Aaron Mueller, Marek Rei,
- Abstract要約: クローズドソース大規模言語モデルの堅牢性向上戦略について検討する。
最適な戦略はデータの複雑さに依存する。
大規模クローズドソース自己回帰LDMはエンコーダモデルよりもかなり頑健であることがわかった。
- 参考スコア(独自算出の注目度): 20.00228502353912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-source Large Language Models (LLMs) have become increasingly popular, with impressive performance across a wide range of natural language tasks. These models can be fine-tuned to further improve performance, but this often results in the models learning from dataset-specific heuristics that reduce their robustness on out-of-distribution (OOD) data. Existing methods to improve robustness either perform poorly, or are non-applicable to closed-source models because they assume access to model internals, or the ability to change the model's training procedure. In this work, we investigate strategies to improve the robustness of closed-source LLMs through data-centric methods that do not require access to model internals. We find that the optimal strategy depends on the complexity of the OOD data. For highly complex OOD datasets, upsampling more challenging training examples can improve robustness by up to 1.5%. For less complex OOD datasets, replacing a portion of the training set with LLM-generated examples can improve robustness by 3.7%. More broadly, we find that large-scale closed-source autoregressive LLMs are substantially more robust than commonly used encoder models, and are a more appropriate choice of baseline going forward.
- Abstract(参考訳): オープンソースであるLLM(Large Language Models)は、さまざまな自然言語タスクにまたがって、目覚ましいパフォーマンスで人気を博している。
これらのモデルは、さらなるパフォーマンス向上のために微調整することができるが、しばしばデータセット固有のヒューリスティックから学習し、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を低下させる。
既存のロバスト性を改善する手法では、モデル内部へのアクセスを前提とするか、モデルのトレーニング手順を変更する能力があるため、性能が良くないか、クローズドソースモデルには適用できない。
本研究では,モデル内部へのアクセスを必要としないデータ中心の手法を用いて,クローズドソースLCMのロバスト性向上戦略について検討する。
最適戦略はOODデータの複雑さに依存する。
非常に複雑なOODデータセットでは、より難しいトレーニング例をアップサンプリングすることで、ロバストネスを最大1.5%向上させることができる。
より複雑なOODデータセットでは、トレーニングセットの一部をLLM生成例に置き換えることで、ロバストネスを3.7%向上させることができる。
より広範に、大規模クローズドソース自己回帰LDMは、一般的なエンコーダモデルよりもかなり頑健であり、今後のベースラインの選択に適している。
関連論文リスト
- DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。
難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。
AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-24T13:57:53Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。