Fugu-MT 論文翻訳(概要): GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue

論文の概要: GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue

arxiv url: http://arxiv.org/abs/2309.04162v1
Date: Fri, 8 Sep 2023 07:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 15:43:18.729107
Title: GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue
Title（参考訳）: GLS-CSC:中国のSTMモデルの表面クレーンへの過度信頼を緩和する簡易かつ効果的な戦略
Authors: Yanrui Du, Sendong Zhao, Yuhan Chen, Rai Bai, Jing Liu, Hua Wu, Haifeng Wang, Bing Qin
Abstract要約: STMモデルにおける表面的手がかりの影響を解析・緩和する。本稿では,GLS-CSC (Superficial Clue) を含む学習サンプルをトレーニング戦略として提案する。 GLS-CSCは,中国のSTMモデルの堅牢性と一般化性の向上の観点から,既存の手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 51.713301130055065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained models have achieved success in Chinese Short Text Matching (STM) tasks, but they often rely on superficial clues, leading to a lack of robust predictions. To address this issue, it is crucial to analyze and mitigate the influence of superficial clues on STM models. Our study aims to investigate their over-reliance on the edit distance feature, commonly used to measure the semantic similarity of Chinese text pairs, which can be considered a superficial clue. To mitigate STM models' over-reliance on superficial clues, we propose a novel resampling training strategy called Gradually Learn Samples Containing Superficial Clue (GLS-CSC). Through comprehensive evaluations of In-Domain (I.D.), Robustness (Rob.), and Out-Of-Domain (O.O.D.) test sets, we demonstrate that GLS-CSC outperforms existing methods in terms of enhancing the robustness and generalization of Chinese STM models. Moreover, we conduct a detailed analysis of existing methods and reveal their commonality.
Abstract（参考訳）: 事前訓練されたモデルは中国のショートテキストマッチング(STM)タスクで成功したが、しばしば表面的な手がかりに依存しており、堅牢な予測が欠如している。この問題に対処するためには,STMモデルにおける表面的手がかりの影響を分析し緩和することが重要である。本研究は,中国語テキストペアの意味的類似性を測定するために一般的に用いられる編集距離特徴の過度な信頼度について検討することを目的としている。本研究では,STMモデルの表面的手がかりへの過度依存を軽減するために,GLS-CSC (Gradually Learn Samples Containing Superficial Clue) と呼ばれる新しい再サンプリングトレーニング戦略を提案する。 In-Domain (I.D.), Robustness (Rob.), Out-Of-Domain (O.O.D.) テストセットの総合的な評価を通じて,GLS-CSCが中国のSTMモデルの堅牢性と一般化を向上する上で,既存の手法より優れていることを示す。さらに,既存手法の詳細な分析を行い,その共通性を明らかにする。

関連論文リスト

Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut Learning in Text Classification by Language Models [20.70050968223901]
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。ショートカットを発生、スタイル、概念に分類する包括的なベンチマークを導入する。本研究は,洗練されたショートカットに対するモデルの弾力性と感受性を系統的に検討する。
論文参考訳（メタデータ） (2024-09-26T01:17:42Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
Improving Representation Learning for Histopathologic Images with Cluster Constraints [31.426157660880673]
自己教師型学習(SSL)事前学習戦略が,現実的な代替手段として浮上している。転送可能な表現学習と意味的に意味のあるクラスタリングのためのSSLフレームワークを導入する。我々の手法は、下流の分類やクラスタリングタスクにおいて一般的なSSLメソッドよりも優れています。
論文参考訳（メタデータ） (2023-10-18T21:20:44Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Adversarial Capsule Networks for Romanian Satire Detection and Sentiment Analysis [0.13048920509133807]
サファイア検出と感情分析は、自然言語処理タスクを集中的に探求している。研究資源が少ない言語では、文字レベルの逆数過程に基づく人工的な例を生成する方法がある。本研究では, よく知られたNLPモデルの改良を行い, 対角訓練とカプセルネットワークについて検討する。提案したフレームワークは2つのタスクの既存の手法より優れており、99.08%の精度が達成されている。
論文参考訳（メタデータ） (2023-06-13T15:23:44Z)
Exploration and Exploitation: Two Ways to Improve Chinese Spelling Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文参考訳（メタデータ） (2021-05-31T09:17:33Z)
On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文参考訳（メタデータ） (2021-01-18T10:12:31Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。