論文の概要: Quantifying French Document Complexity
- arxiv url: http://arxiv.org/abs/2208.12924v1
- Date: Sat, 27 Aug 2022 04:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:01:33.863561
- Title: Quantifying French Document Complexity
- Title(参考訳): フランス文書の複雑さの定量化
- Authors: Vincent Primpied, David Beauchemin, Richard Khoury
- Abstract要約: フランスの文書の複雑さを計測する方法論を定義する。
我々は、新しい一般化された多種多様なテキストのコーパス、"フランス・カナダの複雑性レベルコーパス"、および幅広いメトリクスを使用する。
以上の結果から,本手法はフランス語におけるテキストの複雑さを汎用的に測定するものであることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring a document's complexity level is an open challenge, particularly
when one is working on a diverse corpus of documents rather than comparing
several documents on a similar topic or working on a language other than
English. In this paper, we define a methodology to measure the complexity of
French documents, using a new general and diversified corpus of texts, the
"French Canadian complexity level corpus", and a wide range of metrics. We
compare different learning algorithms to this task and contrast their
performances and their observations on which characteristics of the texts are
more significant to their complexity. Our results show that our methodology
gives a general-purpose measurement of text complexity in French.
- Abstract(参考訳): 文書の複雑さレベルを測定することはオープンな課題であり、特に類似のトピックに関する複数の文書を比較したり、英語以外の言語で作業したりするよりも、文書のさまざまなコーパスに取り組んでいる場合である。
本稿では,フランス語文書の複雑さを測定するための方法論を定義し,新しい汎用的・多様化されたテキストコーパス,"フランス語カナダ複雑さレベルコーパス",および幅広いメトリクスを用いた。
異なる学習アルゴリズムをこのタスクと比較し、その性能と、テキストのどの特性が複雑さにとってより重要であるかの観察を対比する。
その結果,本手法はフランス語のテキスト複雑性を汎用的に測定できることがわかった。
関連論文リスト
- Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts:
The Paragraph-level Topic Representation, Corpus, and Benchmark [68.37789691077892]
タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。
我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。
我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Measuring Annotator Agreement Generally across Complex Structured,
Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。
単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。
クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文 参考訳(メタデータ) (2022-12-15T20:12:48Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。