論文の概要: Quantifying French Document Complexity
- arxiv url: http://arxiv.org/abs/2208.12924v1
- Date: Sat, 27 Aug 2022 04:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:01:33.863561
- Title: Quantifying French Document Complexity
- Title(参考訳): フランス文書の複雑さの定量化
- Authors: Vincent Primpied, David Beauchemin, Richard Khoury
- Abstract要約: フランスの文書の複雑さを計測する方法論を定義する。
我々は、新しい一般化された多種多様なテキストのコーパス、"フランス・カナダの複雑性レベルコーパス"、および幅広いメトリクスを使用する。
以上の結果から,本手法はフランス語におけるテキストの複雑さを汎用的に測定するものであることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring a document's complexity level is an open challenge, particularly
when one is working on a diverse corpus of documents rather than comparing
several documents on a similar topic or working on a language other than
English. In this paper, we define a methodology to measure the complexity of
French documents, using a new general and diversified corpus of texts, the
"French Canadian complexity level corpus", and a wide range of metrics. We
compare different learning algorithms to this task and contrast their
performances and their observations on which characteristics of the texts are
more significant to their complexity. Our results show that our methodology
gives a general-purpose measurement of text complexity in French.
- Abstract(参考訳): 文書の複雑さレベルを測定することはオープンな課題であり、特に類似のトピックに関する複数の文書を比較したり、英語以外の言語で作業したりするよりも、文書のさまざまなコーパスに取り組んでいる場合である。
本稿では,フランス語文書の複雑さを測定するための方法論を定義し,新しい汎用的・多様化されたテキストコーパス,"フランス語カナダ複雑さレベルコーパス",および幅広いメトリクスを用いた。
異なる学習アルゴリズムをこのタスクと比較し、その性能と、テキストのどの特性が複雑さにとってより重要であるかの観察を対比する。
その結果,本手法はフランス語のテキスト複雑性を汎用的に測定できることがわかった。
関連論文リスト
- Estimating Lexical Complexity from Document-Level Distributions [0.0]
我々は、事前に注釈付けされたデータに依存しない語彙的複雑性を推定するための2段階のアプローチを開発する。
また,複雑性尺度と文献における複雑性に関連する特徴との関係についても検討する。
論文 参考訳(メタデータ) (2024-04-01T15:55:18Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Measuring Annotator Agreement Generally across Complex Structured,
Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。
単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。
クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文 参考訳(メタデータ) (2022-12-15T20:12:48Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。