Fugu-MT 論文翻訳(概要): Quantifying French Document Complexity

論文の概要: Quantifying French Document Complexity

arxiv url: http://arxiv.org/abs/2208.12924v1
Date: Sat, 27 Aug 2022 04:12:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 13:01:33.863561
Title: Quantifying French Document Complexity
Title（参考訳）: フランス文書の複雑さの定量化
Authors: Vincent Primpied, David Beauchemin, Richard Khoury
Abstract要約: フランスの文書の複雑さを計測する方法論を定義する。我々は、新しい一般化された多種多様なテキストのコーパス、"フランス・カナダの複雑性レベルコーパス"、および幅広いメトリクスを使用する。以上の結果から,本手法はフランス語におけるテキストの複雑さを汎用的に測定するものであることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Measuring a document's complexity level is an open challenge, particularly when one is working on a diverse corpus of documents rather than comparing several documents on a similar topic or working on a language other than English. In this paper, we define a methodology to measure the complexity of French documents, using a new general and diversified corpus of texts, the "French Canadian complexity level corpus", and a wide range of metrics. We compare different learning algorithms to this task and contrast their performances and their observations on which characteristics of the texts are more significant to their complexity. Our results show that our methodology gives a general-purpose measurement of text complexity in French.
Abstract（参考訳）: 文書の複雑さレベルを測定することはオープンな課題であり、特に類似のトピックに関する複数の文書を比較したり、英語以外の言語で作業したりするよりも、文書のさまざまなコーパスに取り組んでいる場合である。本稿では,フランス語文書の複雑さを測定するための方法論を定義し,新しい汎用的・多様化されたテキストコーパス,"フランス語カナダ複雑さレベルコーパス",および幅広いメトリクスを用いた。異なる学習アルゴリズムをこのタスクと比較し、その性能と、テキストのどの特性が複雑さにとってより重要であるかの観察を対比する。その結果,本手法はフランス語のテキスト複雑性を汎用的に測定できることがわかった。

関連論文リスト

Extending Automatic Machine Translation Evaluation to Book-Length Documents [69.84659107448768]
SEGALEは、既存の自動メトリクスを長期文書翻訳に拡張する評価スキームである。提案手法では,文書レベルの評価が従来不可能であった。実験の結果,提案手法は既存の長文文書評価方式よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-09-21T21:46:58Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。このフレームワークを使って$textbfQUDsim$を作ります。 QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文参考訳（メタデータ） (2025-04-12T23:46:09Z)
Explainable identification of similarities between entities for discovery in large text [0.0]
本研究では,文書の自動比較と説明可能な類似性を明らかにするため,n-gram解析フレームワークを開発した。評価式を適用して各n-gramを重み付けし、n-gramが両方の文書でより頻度が高いときに重みを高くする。ワードクラウドのような可視化ツールは、これらのパターンの表現を強化し、より明確な洞察を提供する。
論文参考訳（メタデータ） (2025-03-22T01:20:43Z)
Estimating Lexical Complexity from Document-Level Distributions [0.0]
我々は、事前に注釈付けされたデータに依存しない語彙的複雑性を推定するための2段階のアプローチを開発する。また,複雑性尺度と文献における複雑性に関連する特徴との関係についても検討する。
論文参考訳（メタデータ） (2024-04-01T15:55:18Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
Multi-Dimensional Evaluation of Text Summarization with In-Context Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文参考訳（メタデータ） (2023-06-01T23:27:49Z)
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-28T12:11:21Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Measuring Annotator Agreement Generally across Complex Structured, Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文参考訳（メタデータ） (2022-12-15T20:12:48Z)
FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。 r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文参考訳（メタデータ） (2022-03-15T22:33:26Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文参考訳（メタデータ） (2021-12-23T12:27:45Z)
Scalable Cross-lingual Document Similarity through Language-specific Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。 JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文参考訳（メタデータ） (2020-12-15T10:42:40Z)
Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-02T03:17:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。