論文の概要: HuixiangDou-CR: Coreference Resolution in Group Chats
- arxiv url: http://arxiv.org/abs/2405.02817v1
- Date: Sun, 5 May 2024 05:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:10:30.092180
- Title: HuixiangDou-CR: Coreference Resolution in Group Chats
- Title(参考訳): HuixiangDou-CR: グループチャットにおける参照解決
- Authors: Huanjun Kong,
- Abstract要約: 本研究では,58kのチャットデータを前処理し,手動で2.3k質問を行った。
0.5Bから32Bの範囲でQwenモデルの微調整を行った。
これは、下流自然言語処理(NLP)タスクのための微調整大型言語モデル(LLM)の実現可能性を確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How to eliminate pronominal reference in group chats? In this work, we have preprocessed 58k authentic chat data and manually annotated 2.3k questions. The reliability of this annotation was confirmed by the scaling law. After this, we conducted fine-tuning on Qwen models, ranging from 0.5B to 32B parameters. The optimal version improved 29.07 in F1 score. This confirms the viability of fine-tuning Large Language Model (LLM) for downstream Natural Language Processing (NLP) tasks. Our contributions are: 1) Created Supervised Fine-Tuning (SFT) training data in alpaca format, along with a set of Low-Rank Adaptation (LoRA) weights, and 2) Developed a method for acquiring high-quality data leveraging scaling law principle. The script, raw data with alpaca format and experiments track are open-sourced on Github https://github.com/InternLM/HuixiangDou/tree/main/web/tools, HuggingFace https://huggingface.co/tpoisonooo and WandB https://wandb.ai/tpoisonooo/huixiangdou-cr/table?nw=nwusertpoisonooo . The privacy of the data involved has been authorized by users.
- Abstract(参考訳): グループチャットにおけるプロノミナル参照の排除法
本研究では,58kのチャットデータを前処理し,手動で2.3k質問を行った。
このアノテーションの信頼性はスケーリング法によって確認された。
その後、0.5Bから32Bのパラメータを含むQwenモデルの微調整を行った。
最適なバージョンでは29.07点のF1スコアが向上した。
これは、下流自然言語処理(NLP)タスクのための微調整大型言語モデル(LLM)の実現可能性を確認する。
私たちの貢献は次のとおりです。
1) ローランド適応(LoRA)重みのセットとともに、アルパカ形式でのSFTトレーニングデータの作成
2)スケーリング法則を利用した高品質なデータ取得手法の開発。
スクリプト、alpacaフォーマット、実験トラックを備えた生データはGithub https://github.com/InternLM/HuixiangDou/tree/main/web/tools, HuggingFace https://huggingface.co/tpoisonooo and WandB https://wandb.ai/tpoisonooo/huixiangdou-cr/table?
nw=nwusertpoisonooo。
関連するデータのプライバシーは、ユーザによって承認されている。
関連論文リスト
- OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data [0.0]
本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
我々はまず、Falcon-40Bモデルのオープンかつ非制限的命令微調整版を用いて、合成命令微調整データを生成する。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
論文 参考訳(メタデータ) (2024-04-18T13:57:18Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Deep Learning Approach for Classifying the Aggressive Comments on Social
Media: Machine Translated Data Vs Real Life Data [15.813222387547357]
本稿では特に,アグレッシブコメントを検出するために,ヒンディー語,バングラ語,英語のデータセットについて研究した。
機械翻訳された英語データセットを,Long Short term memory model (LSTM), Bidirectional Long-Short term memory model (BiLSTM), word2vec, Bidirectional Representations from Transformers (BERT), Generative Pre-trained Transformer (GPT-2) などのモデルを用いて解析した。
ノイズを含まない生データや、特定のノイズ量を含む半ノイズデータなど、さらに2つのデータセットを用いてノイズデータを使用することの性能を比較した。
論文 参考訳(メタデータ) (2023-03-13T21:43:08Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Content Popularity Prediction Based on Quantized Federated Bayesian
Learning in Fog Radio Access Networks [76.16527095195893]
キャッシュ可能なフォグラジオアクセスネットワーク(F-RAN)におけるコンテンツ人気予測問題について検討する。
そこで本研究では,コンテンツ要求パターンをモデル化するためのガウス過程に基づく回帰器を提案する。
我々はベイズ学習を利用してモデルパラメータを訓練する。
論文 参考訳(メタデータ) (2022-06-23T03:05:12Z) - An Improved Normed-Deformable Convolution for Crowd Counting [70.02434289611566]
頭の中のCNN機能のスケール適応機能を活用するために、変形可能な畳み込みを提案する。
本論文では,改良されたノーマッド・デフォルマブル・コンボリューション(textiti.e.NDConv)を提案する。
本手法は,上海技術A,上海技術B,UCF_QNRF,UCF_CC_50データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-16T10:56:26Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - Identifying non-natural language artifacts in bug reports [1.464410818828473]
我々は,Pythonの行レベルにおいて,コンテンツを自然言語とアーティファクトに分類する機械学習ベースのアプローチを提案する。
GitHubのイシュートラッカからのデータを、自動トレーニングセット生成にどのように使用できるかを示します。
我々のモデルは手動でアノテートした検証セットに対して0.95ROC-AUCと0.93F1でスコアし、10k行を0.72秒で分類する。
論文 参考訳(メタデータ) (2021-10-04T11:33:51Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - [Re] Don't Judge an Object by Its Context: Learning to Overcome
Contextual Bias [15.701707809084715]
PyTorch 1.7.0でスクラッチからパイプライン全体を実装する。
その結果,提案手法はいずれも文脈バイアスの軽減に役立つことがわかった。
論文 参考訳(メタデータ) (2021-04-28T06:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。