論文の概要: DT-grams: Structured Dependency Grammar Stylometry for Cross-Language
Authorship Attribution
- arxiv url: http://arxiv.org/abs/2106.05677v1
- Date: Thu, 10 Jun 2021 11:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:25:07.015857
- Title: DT-grams: Structured Dependency Grammar Stylometry for Cross-Language
Authorship Attribution
- Title(参考訳): DT-grams:クロスランゲージオーサシップ属性のための構造化依存文法スティロメトリ
- Authors: Benjamin Murauer and G\"unther Specht
- Abstract要約: 本稿では,依存性グラフと音声タグの普遍的部分に基づく著者分析のための新しい言語非依存機能DT-gramを提案する。
我々は、バイリンガル著者の翻訳されていないデータセットに対して、クロスランゲージなオーサリング属性を実行することでDT-gramを評価する。
- 参考スコア(独自算出の注目度): 0.20305676256390934
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-language authorship attribution problems rely on either translation to
enable the use of single-language features, or language-independent feature
extraction methods. Until recently, the lack of datasets for this problem
hindered the development of the latter, and single-language solutions were
performed on machine-translated corpora. In this paper, we present a novel
language-independent feature for authorship analysis based on dependency graphs
and universal part of speech tags, called DT-grams (dependency tree grams),
which are constructed by selecting specific sub-parts of the dependency graph
of sentences. We evaluate DT-grams by performing cross-language authorship
attribution on untranslated datasets of bilingual authors, showing that, on
average, they achieve a macro-averaged F1 score of 0.081 higher than previous
methods across five different language pairs. Additionally, by providing
results for a diverse set of features for comparison, we provide a baseline on
the previously undocumented task of untranslated cross-language authorship
attribution.
- Abstract(参考訳): 言語間の著者関係の問題は、単一言語機能の使用を可能にするために翻訳に依存するか、言語に依存しない特徴抽出方法に依存する。
最近まで、この問題に対するデータセットの欠如は後者の開発を妨げ、機械翻訳コーパス上で単一言語ソリューションが実行されていた。
本稿では,文の係り受けグラフの特定の部分を選択することにより,dt-grams (dependency tree grams) と呼ばれる音声タグの係り受けグラフと普遍部分に基づく著者関係解析のための新しい言語非依存機能を提案する。
両言語著者の翻訳されていないデータセットに対する言語間オーサリングによるDT-gramの評価を行い、マクロ平均F1スコアが5つの異なる言語対で従来の手法よりも0.081高いことを実証した。
さらに、比較のための多様な機能セットの結果を提供することにより、未翻訳のクロスランゲージオーサシップ属性に関する未文書タスクのベースラインを提供する。
関連論文リスト
- To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。