論文の概要: Towards Generating Automatic Anaphora Annotations
- arxiv url: http://arxiv.org/abs/2503.09417v1
- Date: Wed, 12 Mar 2025 14:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:22.858039
- Title: Towards Generating Automatic Anaphora Annotations
- Title(参考訳): 自動アナフォラアノテーション作成に向けて
- Authors: Dima Taji, Daniel Zeman,
- Abstract要約: 様々なNLPタスクでうまく機能する訓練モデルは大量のデータを必要とする。
そこで本研究では,手動によるゴールドアノテートデータ作成の禁止コストに対処するため,中核アノテーションを用いたデータセットの自動作成方法について検討する。
- 参考スコア(独自算出の注目度): 0.40745432400277165
- License:
- Abstract: Training models that can perform well on various NLP tasks require large amounts of data, and this becomes more apparent with nuanced tasks such as anaphora and conference resolution. To combat the prohibitive costs of creating manual gold annotated data, this paper explores two methods to automatically create datasets with coreferential annotations; direct conversion from existing datasets, and parsing using multilingual models capable of handling new and unseen languages. The paper details the current progress on those two fronts, as well as the challenges the efforts currently face, and our approach to overcoming these challenges.
- Abstract(参考訳): 様々なNLPタスクでうまく機能するトレーニングモデルは大量のデータを必要とし、アナフォラや会議の解決といった微妙なタスクにより、これはより明らかになる。
そこで本研究では,手動によるゴールドアノテートデータ作成の禁止コストに対処するため,コアファーデンシャルアノテーションを用いたデータセットの自動作成,既存のデータセットからの直接変換,新しい言語や目に見えない言語を扱える多言語モデルを用いた解析,という2つの手法について検討する。
本稿は、これらの2つの面での現在の進歩と、現在直面している課題と、これらの課題を克服するための私たちのアプローチについて詳述する。
関連論文リスト
- Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - Revisiting the Exit from Nuclear Energy in Germany with NLP [2.5431639270552333]
微調整されたトランスフォーマーベースのモデルは、アノテーションタスクにおいて人間のアノテータより優れている。
コントリビューションでは、手動でアノテートされたデータセットが、今日のNLPメソッドで自動的に複製される程度について調べる。
論文 参考訳(メタデータ) (2024-08-25T11:13:29Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Deep Graph Reprogramming [112.34663053130073]
グラフニューラルネットワーク(GNN)に適したタスク再利用モデル「ディープグラフ再プログラミング」
本稿では,モデル再プログラミングパラダイムと並行して,革新的なデータ再プログラミングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-28T02:04:29Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。