Fugu-MT 論文翻訳(概要): Precise Task Formalization Matters in Winograd Schema Evaluations

論文の概要: Precise Task Formalization Matters in Winograd Schema Evaluations

arxiv url: http://arxiv.org/abs/2010.04043v1
Date: Thu, 8 Oct 2020 15:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 12:16:32.597886
Title: Precise Task Formalization Matters in Winograd Schema Evaluations
Title（参考訳）: ウィノグラードスキーマ評価におけるタスクの精密化
Authors: Haokun Liu, William Huang, Dhara A. Mungra, Samuel R. Bowman
Abstract要約: ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
参考スコア（独自算出の注目度）: 28.949399736177526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Performance on the Winograd Schema Challenge (WSC), a respected English commonsense reasoning benchmark, recently rocketed from chance accuracy to 89% on the SuperGLUE leaderboard, with relatively little corroborating evidence of a correspondingly large improvement in reasoning ability. We hypothesize that much of this improvement comes from recent changes in task formalization---the combination of input specification, loss function, and reuse of pretrained parameters---by users of the dataset, rather than improvements in the pretrained model's reasoning ability. We perform an ablation on two Winograd Schema datasets that interpolates between the formalizations used before and after this surge, and find (i) framing the task as multiple choice improves performance by 2-6 points and (ii) several additional techniques, including the reuse of a pretrained language modeling head, can mitigate the model's extreme sensitivity to hyperparameters. We urge future benchmark creators to impose additional structure to minimize the impact of formalization decisions on reported results.
Abstract（参考訳）: 英国の常識推論ベンチマークであるwinograd schema challenge(wsc)のパフォーマンスは、最近、偶然の正確さから、スーパーグルーのリーダーボード上で89%に上昇した。この改善の多くは、事前トレーニングモデルの推論能力の改善ではなく、データセットのユーザによる、入力仕様、損失関数、および事前トレーニングパラメータの再利用の組み合わせによる、最近のタスクフォーマイゼーションの変化によるものだと仮定します。 2つのWinograd Schemaデータセット上でアブレーションを行い、このサージ前後の形式化を補間し、発見する。 (i)複数の選択としてタスクをフレーミングすることで、性能が2～6ポイント向上する (ii)事前訓練された言語モデリングヘッドの再利用を含むいくつかの追加技術は、ハイパーパラメータに対するモデルの極端な感度を軽減することができる。今後のベンチマーククリエーターには、報告結果に対する形式化決定の影響を最小限に抑えるため、追加構造を課すよう求めます。

関連論文リスト

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文参考訳（メタデータ） (2025-06-03T10:11:51Z)
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。 IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文参考訳（メタデータ） (2024-07-22T15:35:09Z)
FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。 FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文参考訳（メタデータ） (2024-04-02T01:42:15Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文参考訳（メタデータ） (2024-01-11T04:59:44Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文参考訳（メタデータ） (2021-12-18T14:32:32Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning [23.00300794016583]
最先端の自然言語理解分類モデルは2段階に従う。微調整段階に対する教師付きコントラスト学習(SCL)の目的を提案する。提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢なモデルに導かれる。
論文参考訳（メタデータ） (2020-11-03T01:10:39Z)
Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文参考訳（メタデータ） (2020-10-13T00:23:59Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。