論文の概要: Tailoring and Evaluating the Wikipedia for in-Domain Comparable Corpora
Extraction
- arxiv url: http://arxiv.org/abs/2005.01177v1
- Date: Sun, 3 May 2020 20:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:51:38.121662
- Title: Tailoring and Evaluating the Wikipedia for in-Domain Comparable Corpora
Extraction
- Title(参考訳): ドメイン内比較コーパス抽出のためのウィキペディアの作成と評価
- Authors: Cristina Espa\~na-Bonet, Alberto Barr\'on-Cede\~no and Llu\'is
M\`arquez
- Abstract要約: 本稿では,ウィキペディアからユーザ定義ドメイン上にa-la-carte記事コレクションを構築するための,言語に依存しないグラフベースの自動手法を提案する。
10言語、743ドメインで得られたコーパスの品質を評価するための徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an automatic language-independent graph-based method to build
\`a-la-carte article collections on user-defined domains from the Wikipedia.
The core model is based on the exploration of the encyclopaedia's category
graph and can produce both monolingual and multilingual comparable collections.
We run thorough experiments to assess the quality of the obtained corpora in 10
languages and 743 domains. According to an extensive manual evaluation, our
graph-based model outperforms a retrieval-based approach and reaches an average
precision of 84% on in-domain articles. As manual evaluations are costly, we
introduce the concept of "domainness" and design several automatic metrics to
account for the quality of the collections. Our best metric for domainness
shows a strong correlation with the human-judged precision, representing a
reasonable automatic alternative to assess the quality of domain-specific
corpora. We release the WikiTailor toolkit with the implementation of the
extraction methods, the evaluation measures and several utilities. WikiTailor
makes obtaining multilingual in-domain data from the Wikipedia easy.
- Abstract(参考訳): 本稿では,ウィキペディアからユーザ定義ドメイン上に<a-la-carte>記事コレクションを構築するための言語に依存しない自動グラフベース手法を提案する。
コアモデルは百科事典のカテゴリグラフの探索に基づいており、単言語と多言語に匹敵するコレクションを作成できる。
得られたコーパスの品質を10言語と743ドメインで徹底的に評価する実験を行った。
広範囲な手作業による評価により,本手法は検索手法より優れ,ドメイン内記事の平均精度は84%に達した。
手動による評価はコストがかかるため、「ドメイン性」の概念を導入し、コレクションの品質を考慮したいくつかの自動メトリクスを設計する。
ドメイン性に関する最も優れた測定基準は、ドメイン固有のコーパスの品質を評価するための合理的な自動的な代替手段として、ヒトの判断精度と強い相関を示す。
我々は,wikitailor toolkit をリリースし,抽出方法,評価尺度,ユーティリティをいくつか実装した。
WikiTailorはウィキペディアから多言語でのドメインデータの取得を容易にする。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability [0.9954382983583578]
クロスドメインテキスト分類モデルの最近の評価は、ソースドメイン内のラベル付きサンプルが与えられた対象ドメインにおいて、ドメイン不変性能を得るためのモデルの能力を測定することを目的としている。
この評価戦略は、ソースドメインとターゲットドメインの類似性を考慮せず、モデルが学習をソースドメインと非常に異なる特定のターゲットサンプルに転送できない場合、マスクする可能性がある。
我々は、新しいクロスドメインテキスト分類性能指標であるDepth $F_1$を紹介した。
論文 参考訳(メタデータ) (2024-06-20T19:35:17Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements [167.73134600289603]
Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
論文 参考訳(メタデータ) (2022-09-30T18:35:39Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。