論文の概要: DFKI-NLP at SemEval-2024 Task 2: Towards Robust LLMs Using Data Perturbations and MinMax Training
- arxiv url: http://arxiv.org/abs/2405.00321v1
- Date: Wed, 1 May 2024 05:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:27:08.196031
- Title: DFKI-NLP at SemEval-2024 Task 2: Towards Robust LLMs Using Data Perturbations and MinMax Training
- Title(参考訳): DFKI-NLP at SemEval-2024 Task 2: To toward Robust LLMs Using Data Perturbations and MinMax Training (特集:情報ネットワーク)
- Authors: Bhuvanesh Verma, Lisa Raithel,
- Abstract要約: 本版では,臨床トライアルレポート(CTR)の数値,語彙,意味的側面を対象とする介入を紹介する。
提案システムは,NLI4CTデータセットの複雑な入力空間に集中するために,補助モデルによって補完される最先端のMistralモデルの能力を利用する。
データに数値および頭字語に基づく摂動を組み込むことにより、意味的変化と数値的矛盾の両方を扱うことのできる堅牢なシステムを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLI4CT task at SemEval-2024 emphasizes the development of robust models for Natural Language Inference on Clinical Trial Reports (CTRs) using large language models (LLMs). This edition introduces interventions specifically targeting the numerical, vocabulary, and semantic aspects of CTRs. Our proposed system harnesses the capabilities of the state-of-the-art Mistral model, complemented by an auxiliary model, to focus on the intricate input space of the NLI4CT dataset. Through the incorporation of numerical and acronym-based perturbations to the data, we train a robust system capable of handling both semantic-altering and numerical contradiction interventions. Our analysis on the dataset sheds light on the challenging sections of the CTRs for reasoning.
- Abstract(参考訳): SemEval-2024のNLI4CTタスクは、大きな言語モデル(LLM)を用いた、CTR(Natural Language Inference on Clinical Trial Reports)のための堅牢なモデルの開発を強調している。
この版では、CTRの数値的、語彙的、意味的な側面を特に対象とする介入が導入されている。
提案システムは,NLI4CTデータセットの複雑な入力空間に集中するために,補助モデルによって補完される最先端のMistralモデルの能力を利用する。
データに数値および頭字語に基づく摂動を組み込むことにより、意味的変化と数値的矛盾の両方を扱うことのできる堅牢なシステムを訓練する。
データセットの解析は、CTRの困難な部分の推論に光を当てます。
関連論文リスト
- Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Linguistic-Based Mild Cognitive Impairment Detection Using Informative
Loss [2.8893654860442872]
我々は,I-CONECT研究プロジェクト内で収集された映像インタビューから生成されたテキストを解析するフレームワークを提案する。
我々のフレームワークは、平均面積84.75%のMCIとNCを区別することができる。
論文 参考訳(メタデータ) (2024-01-23T16:30:22Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Natural Language Inference with Self-Attention for Veracity Assessment
of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。
そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-05T12:11:31Z) - Generating Authentic Adversarial Examples beyond Meaning-preserving with
Doubly Round-trip Translation [64.16077929617119]
二重ラウンド・トリップ翻訳(DRTT)に基づくNMT逆例の新しい基準を提案する。
NMTモデルの堅牢性を高めるため,両言語対を構築するためのマスキング言語モデルを提案する。
論文 参考訳(メタデータ) (2022-04-19T06:15:27Z) - Bidirectional LSTM-CRF Attention-based Model for Chinese Word
Segmentation [2.3991565023534087]
中国語単語セグメンテーションのための双方向LSTM-CRFアテンションベースモデルを提案する。
我々のモデルは、他のニューラルネットワークによるベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-20T11:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。