論文の概要: ÚFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution
- arxiv url: http://arxiv.org/abs/2311.14391v3
- Date: Wed, 16 Oct 2024 17:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:16.799050
- Title: ÚFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution
- Title(参考訳): CRAC 2023: より大規模なコンテキストによるマルチリンガル・コンカレンス・コンカレンス・コンカレンスの改善
- Authors: Milan Straka,
- Abstract要約: CRAC 2023 Shared Task on Multilingual Coreference Resolution で優勝した CorPipe について述べる。
我々のシステムは、初期のマルチリンガル・コアス・パイプラインの改良版であり、他の参加者を4.5%の差で上回っている。
- 参考スコア(独自算出の注目度): 1.2772632966631616
- License:
- Abstract: We present CorPipe, the winning entry to the CRAC 2023 Shared Task on Multilingual Coreference Resolution. Our system is an improved version of our earlier multilingual coreference pipeline, and it surpasses other participants by a large margin of 4.5 percent points. CorPipe first performs mention detection, followed by coreference linking via an antecedent-maximization approach on the retrieved spans. Both tasks are trained jointly on all available corpora using a shared pretrained language model. Our main improvements comprise inputs larger than 512 subwords and changing the mention decoding to support ensembling. The source code is available at https://github.com/ufal/crac2023-corpipe.
- Abstract(参考訳): CRAC 2023Shared Task on Multilingual Coreference Resolutionの勝者であるCorPipeを紹介する。
我々のシステムは、初期のマルチリンガル・コアス・パイプラインの改良版であり、他の参加者を4.5%の差で上回っている。
CorPipeはまず参照検出を行い、その後、検索したスパンに対する先行最大化アプローチを通じてコア参照リンクを行う。
両方のタスクは、共有事前訓練された言語モデルを使用して、利用可能なすべてのコーパスで共同でトレーニングされる。
主な改善点は、512のサブワードよりも大きい入力と、アンサンブルをサポートするための参照デコードの変更です。
ソースコードはhttps://github.com/ufal/crac2023-corpipeで入手できる。
関連論文リスト
- CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text [1.2772632966631616]
我々は,CorPipe 24,CRAC 2024Shared Task on Multilingual Coreference Resolutionについて述べる。
このタスクの第3イテレーションでは、新しい目的として、ゼロコア参照参照に必要な空のノードを予測することが挙げられる。
どちらの設定でも、CorPipeは、それぞれ3.9ポイントと2.8%の差で他の参加者を上回っている。
論文 参考訳(メタデータ) (2024-10-03T17:58:55Z) - Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - The First Place Solution of WSDM Cup 2024: Leveraging Large Language
Models for Conversational Multi-Doc QA [15.405052113769164]
我々は、WSDMカップ2024における「会話型マルチドキュメントQA」の挑戦に対する勝利のアプローチを紹介します。
まず、タスクにLarge Language Modelsを適応させ、次に、ドメイン内のラベルなしデータを最大限活用するためのハイブリッドトレーニング戦略を考案します。
われわれのソリューションは、WSDMカップ2024で1位にランクインし、ライバルをはるかに上回った。
論文 参考訳(メタデータ) (2024-02-28T15:05:43Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - ÚFAL CorPipe at CRAC 2022: Effectivity of Multilingual Models for Coreference Resolution [1.7871207544302354]
CRAC 2022 における多言語照合解決のための共有タスクの入賞条件について述べる。
提案システムは,まず参照検出を解き,抽出したスパンと先行最大化手法をリンクする。
論文 参考訳(メタデータ) (2022-09-15T13:11:39Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic
Parsing [7.153795286069918]
我々はSpanglish(スペイン語+英語)に注目し、セマンティックパースと合わせて5800のCS発話を含むデータセットCSTOPをリリースする。
各種言語間(XL)モデルのCS一般化性について検討し,1つの言語のみのデータが存在する場合,事前学習したXL言語モデルの利点を示す。
論文 参考訳(メタデータ) (2021-01-26T02:40:44Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。