論文の概要: Introducing Rhetorical Parallelism Detection: A New Task with Datasets,
Metrics, and Baselines
- arxiv url: http://arxiv.org/abs/2312.00100v1
- Date: Thu, 30 Nov 2023 15:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:02:29.260415
- Title: Introducing Rhetorical Parallelism Detection: A New Task with Datasets,
Metrics, and Baselines
- Title(参考訳): Rhetorical Parallelism Detectionの導入:データセット,メトリック,ベースラインによる新しいタスク
- Authors: Stephen Bothwell, Justin DeBenedetto, Theresa Crnkovich, Hildegund
M\"uller, David Chiang
- Abstract要約: parallelism$は、同じ言語的特徴を持つ句の並置である。
並列性の多様さにもかかわらず、自然言語処理の分野は滅多に研究されていない。
我々は、その公式な定義を構築し、新しいラテンデータセットと適応した中国語データセットを1つ提供し、その上でのパフォーマンスを評価するためのメトリクスのファミリーを確立します。
- 参考スコア(独自算出の注目度): 8.405938712823565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rhetoric, both spoken and written, involves not only content but also style.
One common stylistic tool is $\textit{parallelism}$: the juxtaposition of
phrases which have the same sequence of linguistic ($\textit{e.g.}$,
phonological, syntactic, semantic) features. Despite the ubiquity of
parallelism, the field of natural language processing has seldom investigated
it, missing a chance to better understand the nature of the structure, meaning,
and intent that humans convey. To address this, we introduce the task of
$\textit{rhetorical parallelism detection}$. We construct a formal definition
of it; we provide one new Latin dataset and one adapted Chinese dataset for it;
we establish a family of metrics to evaluate performance on it; and, lastly, we
create baseline systems and novel sequence labeling schemes to capture it. On
our strictest metric, we attain $F_{1}$ scores of $0.40$ and $0.43$ on our
Latin and Chinese datasets, respectively.
- Abstract(参考訳): レトリックは、話し言葉と書き言葉の両方で、内容だけでなくスタイルも含んでいる。
1つの一般的なスタイリスティックなツールは$\textit{parallelism}$:同じ言語的(\textit{e.g.}$, 音韻論的, 構文的, 意味論的)な特徴を持つ句の並置である。
並列処理の普遍性にもかかわらず、自然言語処理の分野は、人間が伝える構造、意味、意図の性質をよりよく理解する機会を欠いているため、ほとんど調査されていない。
これに対処するために、$\textit{rhetorical parallelism detection} というタスクを導入する。
我々は、その公式な定義を構築し、新しいラテンデータセットと適応した中国語データセットを提供し、その上でのパフォーマンスを評価するためのメトリクスのファミリーを確立し、最後に、ベースラインシステムと、それをキャプチャするための新しいシーケンスラベリングスキームを作成します。
最も厳格な基準では、ラテンと中国のデータセットでそれぞれ0.40$と0.43$のf_{1}$スコアを得る。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - OYXOY: A Modern NLP Test Suite for Modern Greek [2.059776592203642]
本稿では,ギリシャ語NLPのための言語的動機付け評価スイートの開発に向けた基礎的なステップとして機能する。
本稿では,自然言語推論,単語感覚の曖昧さ,メタファ検出を対象とする4つの専門家による評価タスクを紹介する。
既存のタスクの言語による複製よりも、より広いリソースと評価コミュニティに共鳴する2つのイノベーションに貢献する。
論文 参考訳(メタデータ) (2023-09-13T15:00:56Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Don't Take This Out of Context! On the Need for Contextual Models and
Evaluations for Stylistic Rewriting [29.983234538677543]
本稿では,文脈結合性と原文との類似性を組み合わせた新しい複合文脈評価指標であるtextttCtxSimFit$を紹介する。
実験の結果,人間は文脈的書き直しを,非文脈的書き直しよりも適切で自然なものにすることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T05:58:17Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。