論文の概要: Wikimedia data for AI: a review of Wikimedia datasets for NLP tasks and AI-assisted editing
- arxiv url: http://arxiv.org/abs/2410.08918v1
- Date: Fri, 11 Oct 2024 15:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:16:19.387576
- Title: Wikimedia data for AI: a review of Wikimedia datasets for NLP tasks and AI-assisted editing
- Title(参考訳): AIのためのウィキメディアデータ:NLPタスクとAI支援編集のためのウィキメディアデータセットのレビュー
- Authors: Isaac Johnson, Lucie-Aimée Kaffee, Miriam Redi,
- Abstract要約: 我々は,Wikimediaデータを学習前,訓練後,モデル評価にまたがるNLPタスクで使用する方法について検討する。
我々は、ウィキメディアデータの追加ソースの導入、ウィキメディアの原則を符号化するLLMのベンチマークの強化、ウィキメディア由来のデータセットにおける多言語主義の強化を訴える。
- 参考スコア(独自算出の注目度): 3.960519546131734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikimedia content is used extensively by the AI community and within the language modeling community in particular. In this paper, we provide a review of the different ways in which Wikimedia data is curated to use in NLP tasks across pre-training, post-training, and model evaluations. We point to opportunities for greater use of Wikimedia content but also identify ways in which the language modeling community could better center the needs of Wikimedia editors. In particular, we call for incorporating additional sources of Wikimedia data, a greater focus on benchmarks for LLMs that encode Wikimedia principles, and greater multilingualism in Wikimedia-derived datasets.
- Abstract(参考訳): ウィキメディアコンテンツはAIコミュニティ、特に言語モデリングコミュニティで広く利用されている。
本稿では, Wikimediaデータを学習前, 訓練後, モデル評価において, NLPタスクで活用するためのさまざまな方法について概説する。
我々は、ウィキメディアコンテンツをもっと活用する機会を指摘するとともに、言語モデリングコミュニティがウィキメディアエディターのニーズをもっと集中させる方法を特定する。
特に、ウィキメディアデータの追加ソースの導入、ウィキメディアの原則をエンコードするLLMのベンチマークの強化、ウィキメディア由来のデータセットにおける多言語主義の強化が求められます。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文 参考訳(メタデータ) (2022-09-21T16:14:15Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models [0.0]
アイスランド語のためのいくつかの言語モデルをトレーニングし、IceBERTは様々なダウンストリームタスクで最先端のパフォーマンスを達成する。
我々は,アイスランドの上位レベルドメイン(TLD)をターゲットとして,高品質なテキストの集合体であるアイスランド・コモン・クローリング・コーパス(IC3)を新たに導入する。
ロー・ミディアム・リソース言語に対するNLPアプリケーションにおいて, クロールしたコーパスを適切に洗浄すれば, 最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-14T18:45:31Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。