論文の概要: KoWit-24: A Richly Annotated Dataset of Wordplay in News Headlines
- arxiv url: http://arxiv.org/abs/2503.01510v1
- Date: Mon, 03 Mar 2025 13:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:15.487546
- Title: KoWit-24: A Richly Annotated Dataset of Wordplay in News Headlines
- Title(参考訳): KoWit-24:ニュース見出しにリッチな注釈付きワードプレイデータセット
- Authors: Alexander Baranov, Anna Palatkina, Yulia Makovka, Pavel Braslavski,
- Abstract要約: KoWit-24は,2700件のロシア語ニュースの見出しに,単語の細かいアノテーションを付加したデータセットである。
KoWit-24はワードプレイコンテキストを提供する。
データセットで最も一般的なワードプレイは、コロケーション、イディオム、名前付きエンティティの変換である。
- 参考スコア(独自算出の注目度): 44.29279337475348
- License:
- Abstract: We present KoWit-24, a dataset with fine-grained annotation of wordplay in 2,700 Russian news headlines. KoWit-24 annotations include the presence of wordplay, its type, wordplay anchors, and words/phrases the wordplay refers to. Unlike the majority of existing humor collections of canned jokes, KoWit-24 provides wordplay contexts -- each headline is accompanied by the news lead and summary. The most common type of wordplay in the dataset is the transformation of collocations, idioms, and named entities -- the mechanism that has been underrepresented in previous humor datasets. Our experiments with five LLMs show that there is ample room for improvement in wordplay detection and interpretation tasks. The dataset and evaluation scripts are available at https://github.com/Humor-Research/KoWit-24
- Abstract(参考訳): KoWit-24は,2700件のロシアのニュースニュースの見出しに,ワードプレイの微粒なアノテーションを付加したデータセットである。
KoWit-24アノテーションには、ワードプレイの存在、そのタイプ、ワードプレイアンカー、ワードプレイが参照するワード/フレーズが含まれる。
缶詰ジョークのほとんどのユーモアコレクションとは異なり、KoWit-24はワードプレイコンテキストを提供する。それぞれの見出しにはニュースリードと要約が伴っている。データセットで最も一般的なタイプのワードプレイは、コロケーション、イディオム、名前付きエンティティの変換である。これは以前のユーモアデータセットで表現されていないメカニズムである。
5つの LLM を用いた実験により,単語認識と解釈タスクの改善の余地が十分にあることが示された。
データセットと評価スクリプトはhttps://github.com/Humor-Research/KoWit-24で公開されている。
関連論文リスト
- ROUGE-K: Do Your Summaries Have Keywords? [11.393728547335217]
要約における内容関連単語は,効率的な情報伝達において重要な役割を担っている。
極端な要約モデルの既存の評価指標は、要約のキーワードに明確な注意を払わない。
変換器モデルに単語の重要度を組み込むための4つの手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:54:56Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural
Topic Modeling [23.323587005085564]
CWTM(Contextlized Word Topic Model)と呼ばれる新しいニューラルトピックモデルを導入する。
CWTMは、BERTからコンテキスト化された単語の埋め込みを統合する。
BOW情報なしで文書のトピックベクトルを学習することができる。
また、文脈化された単語の埋め込みに基づいて、文書内の個々の単語のトピックベクトルを導出することもできる。
論文 参考訳(メタデータ) (2023-05-16T10:07:33Z) - ExPUNations: Augmenting Puns with Keywords and Explanations [88.58174386894913]
我々は、キーワードの詳細なクラウドソースアノテーションで既存の句のデータセットを拡張する。
これは、パント専用の広範囲できめ細かなアノテーションを備えた最初のユーモアデータセットである。
句分類支援のための説明生成とキーワード条件付き句生成という2つのタスクを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:12:02Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - Effect of Text Processing Steps on Twitter Sentiment Classification
using Word Embedding [0.0]
本稿では,7つのテキスト処理シナリオが特定のテキストドメイン(Twitter)とアプリケーション(感性分類)に与える影響について検討する。
スキップグラムベースの単語埋め込みは、従来の文献コーパスでは利用できないためにしばしば削除されるTwitterの口語、絵文字、ハッシュタグキーワードを含むように開発されている。
1)非ASCII絵文字文字,2)単語埋め込みから単語の重要度を測定すること,3)ツイート埋め込みに単語ベクトルを集約すること,4)感情分類パイプラインを最適化するために線形分離可能な特徴空間を開発することなどが提案されている。
論文 参考訳(メタデータ) (2020-07-25T22:44:00Z) - RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the
Russian language [70.27072729280528]
本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。
16チームがこのタスクに参加し、半数以上が提供されたベースラインを上回った。
論文 参考訳(メタデータ) (2020-05-22T13:30:37Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。