Fugu-MT 論文翻訳(概要): CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration

論文の概要: CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration

arxiv url: http://arxiv.org/abs/2309.07822v2
Date: Fri, 15 Sep 2023 07:57:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 11:30:08.439274
Title: CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration
Title（参考訳）: CATfOOD: 外部性能と校正のための対実的強化トレーニング
Authors: Rachneet Sachdeva, Martin Tutek, Iryna Gurevych
Abstract要約: データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
参考スコア（独自算出の注目度）: 59.48235003469116
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, large language models (LLMs) have shown remarkable capabilities at scale, particularly at generating text conditioned on a prompt. In our work, we investigate the use of LLMs to augment training data of small language models~(SLMs) with automatically generated counterfactual~(CF) instances -- i.e. minimally altered inputs -- in order to improve out-of-domain~(OOD) performance of SLMs in the extractive question answering~(QA) setup. We show that, across various LLM generators, such data augmentation consistently enhances OOD performance and improves model calibration for both confidence-based and rationale-augmented calibrator models. Furthermore, these performance improvements correlate with higher diversity of CF instances in terms of their surface form and semantic content. Finally, we show that CF augmented models which are easier to calibrate also exhibit much lower entropy when assigning importance, indicating that rationale-augmented calibrators prefer concise explanations.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は,特にプロンプトに条件付けされたテキストの生成において,特に顕著な能力を示した。本研究では,小言語モデルの学習データ(SLM)を,自動生成した逆ファクト～(CF)インスタンス(最小限の変更された入力)で拡張し,抽出された質問応答〜(QA)設定におけるSLMのアウト・オブ・ドメイン〜(OOD)性能を改善するために,LLMを用いて検討する。各種LLM発電機において,データ拡張はOOD性能を継続的に向上し,信頼性に基づくモデルと合理的なキャリブレータモデルのキャリブレーションを改善する。さらに,これらの性能改善は,CFインスタンスの表面形状や意味内容の多様性と相関する。最後に, キャリブレーションが容易なCF拡張モデルは, 重要度を割り当てる際のエントロピーがはるかに低いことを示し, 合理的拡張キャリブレータは簡潔な説明を好むことを示す。

関連論文リスト

Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。 modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。 AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文参考訳（メタデータ） (2025-03-06T09:21:54Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。 FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。 FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文参考訳（メタデータ） (2025-02-25T03:03:35Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation [11.238548725286122]
我々はZeroCFを紹介した。ZeroCFは、特徴帰属法から派生した重要な単語を活用して、反実例を生成するための忠実なアプローチである。第2に,新たなフレームワークであるFitCFを提案する。このフレームワークは,上述の反事実をラベルフリップ検証によって検証し,実演として挿入する。 We showed the effect of LIME and Integrated Gradients as backbone attribution method for FitCF and found the number of demonstrations have be largest effect on performance。
論文参考訳（メタデータ） (2025-01-01T09:00:10Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T03:01:07Z)
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文参考訳（メタデータ） (2024-08-30T14:15:48Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文参考訳（メタデータ） (2024-04-02T08:01:05Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文参考訳（メタデータ） (2023-05-30T17:35:31Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。 FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文参考訳（メタデータ） (2022-12-05T18:37:09Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。