論文の概要: Detecting Cross-Language Plagiarism using Open Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2111.09749v1
- Date: Thu, 18 Nov 2021 15:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 18:42:38.070312
- Title: Detecting Cross-Language Plagiarism using Open Knowledge Graphs
- Title(参考訳): オープン知識グラフを用いた言語横断プラジャリズムの検出
- Authors: Johannes Stegm\"uller, Fabian Bauer-Marquart, Norman Meuschke, Terry
Ruas, Moritz Schubotz, Bela Gipp
- Abstract要約: 本稿では,多言語検索モデルであるクロスランゲージオントロジーに基づく類似性分析を提案する。
CL-OSAは、オープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。
ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
- 参考スコア(独自算出の注目度): 7.378348990383349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying cross-language plagiarism is challenging, especially for distant
language pairs and sense-for-sense translations. We introduce the new
multilingual retrieval model Cross-Language Ontology-Based Similarity Analysis
(CL\nobreakdash-OSA) for this task. CL-OSA represents documents as entity
vectors obtained from the open knowledge graph Wikidata. Opposed to other
methods, CL\nobreakdash-OSA does not require computationally expensive machine
translation, nor pre-training using comparable or parallel corpora. It reliably
disambiguates homonyms and scales to allow its application to Web-scale
document collections. We show that CL-OSA outperforms state-of-the-art methods
for retrieving candidate documents from five large, topically diverse test
corpora that include distant language pairs like Japanese-English. For
identifying cross-language plagiarism at the character level, CL-OSA primarily
improves the detection of sense-for-sense translations. For these challenging
cases, CL-OSA's performance in terms of the well-established PlagDet score
exceeds that of the best competitor by more than factor two. The code and data
of our study are openly available.
- Abstract(参考訳): 言語横断プラジャリズムの特定は、特に遠方の言語対や意味のある翻訳において困難である。
本稿では,多言語検索モデルであるCL-Language Ontology-Based similarity Analysis (CL\nobreakdash-OSA)を提案する。
CL-OSAはオープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。
他の方法とは異なり、cl\nobreakdash-osaは計算コストの高い機械翻訳を必要としない。
ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
CL-OSAは,日本語のような遠い言語対を含む5つの大規模かつ多種多様なテストコーパスから,候補文書を検索するための最先端手法よりも優れていることを示す。
言語横断プラジャリズムを文字レベルで識別するために、CL-OSAは主にセンス・フォー・センス翻訳の検出を改善している。
これらの困難なケースでは、CL-OSAが確立したPagDetスコアは、第2因子以上で最高の競合相手のスコアを上回っている。
私たちの研究のコードとデータは公開されています。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。