論文の概要: Dynaword: From One-shot to Continuously Developed Datasets
- arxiv url: http://arxiv.org/abs/2508.02271v1
- Date: Mon, 04 Aug 2025 10:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.291783
- Title: Dynaword: From One-shot to Continuously Developed Datasets
- Title(参考訳): Dynaword: ワンショットから継続的開発データセット
- Authors: Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo,
- Abstract要約: Dynawordは大規模でオープンなデータセットを作成するためのフレームワークで、コミュニティのコラボレーションを通じて継続的に更新できる。
デンマーク語のDynawordは、このアプローチを検証し、その可能性を実証する具体的な実装である。
- 参考スコア(独自算出の注目度): 11.712103115731432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale datasets are foundational for research and development in natural language processing. However, current approaches face three key challenges: (1) reliance on ambiguously licensed sources restricting use, sharing, and derivative works; (2) static dataset releases that prevent community contributions and diminish longevity; and (3) quality assurance processes restricted to publishing teams rather than leveraging community expertise. To address these limitations, we introduce two contributions: the Dynaword approach and Danish Dynaword. The Dynaword approach is a framework for creating large-scale, open datasets that can be continuously updated through community collaboration. Danish Dynaword is a concrete implementation that validates this approach and demonstrates its potential. Danish Dynaword contains over four times as many tokens as comparable releases, is exclusively openly licensed, and has received multiple contributions across industry and research. The repository includes light-weight tests to ensure data formatting, quality, and documentation, establishing a sustainable framework for ongoing community contributions and dataset evolution.
- Abstract(参考訳): 大規模データセットは自然言語処理の研究と開発の基礎となっている。
しかし、現状のアプローチでは、(1)使用、共有、デリバティブな作業を制限する明確なライセンスのソースに依存すること、(2)コミュニティのコントリビューションを防ぎ、長寿を損なう静的データセットのリリース、(3)コミュニティの専門知識を活用するのではなく、パブリッシュチームに限定される品質保証プロセス、という3つの課題に直面している。
これらの制限に対処するために、DynawordアプローチとDynawordという2つのコントリビューションを紹介します。
Dynawordアプローチは、コミュニティのコラボレーションを通じて継続的に更新可能な大規模でオープンなデータセットを作成するためのフレームワークである。
デンマーク語のDynawordは、このアプローチを検証し、その可能性を実証する具体的な実装である。
デンマーク語のDynawordには、同等のリリースの4倍以上のトークンが含まれており、排他的にライセンスされており、業界や研究に様々な貢献をしている。
このリポジトリには、データフォーマッティング、品質、ドキュメントを保証する軽量なテストが含まれており、継続的なコミュニティコントリビューションとデータセットの進化のための持続可能なフレームワークを確立している。
関連論文リスト
- An Analysis of Datasets, Metrics and Models in Keyphrase Generation [33.04325179283727]
キーワード生成(英: Keyphrase generation)とは、文書を要約する単語やフレーズの集合を生成するタスクである。
本稿では,キーフレーズ生成に関する50以上の研究論文の分析を行い,最近の進歩,限界,オープン課題について概観する。
論文 参考訳(メタデータ) (2025-06-12T04:54:44Z) - Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training [6.00143998001152]
言語モデル事前学習のための最大のオープンデータセットであるCommon Corpusを紹介する。
データセットには、ヨーロッパの主要言語から、事前トレーニングデータセットにはほとんど存在しない低リソース言語まで、さまざまな言語が含まれている。
論文 参考訳(メタデータ) (2025-06-02T14:43:15Z) - LAQuer: Localized Attribution Queries in Content-grounded Generation [69.60308443863606]
グラウンドドテキスト生成モデルは、しばしば元の資料から逸脱したコンテンツを生成し、正確性を保証するためにユーザの検証を必要とする。
既存の属性メソッドは、全文とソース文書を関連付けるが、これは特定のクレームを事実チェックしようとするユーザにとって圧倒的に多い。
これは、生成された出力の選択したスパンを対応するソーススパンにローカライズし、きめ細かな、ユーザ指向のアトリビューションを可能にする新しいタスクである。
論文 参考訳(メタデータ) (2025-06-01T21:46:23Z) - CFReID: Continual Few-shot Person Re-Identification [130.5656289348812]
Lifelong ReIDは、複数のドメインにまたがる知識を漸進的に学習し、蓄積するために提案されている。
LReIDモデルは、一般にプライバシとコストの懸念のためにアクセスできない、目に見えない各ドメインの大規模ラベル付きデータでトレーニングする必要がある。
本稿では,数ショットデータを用いてモデルをインクリメンタルにトレーニングし,すべてのドメインでテストするContinual Few-shot ReIDを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:17:05Z) - TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
テキストpROVEnance(TROVE)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
TROVEをベンチマークするために、11の多様なシナリオをカバーする3つの公開データセットを活用してデータセットを構築します。
我々は、直接的プロンプトおよび検索拡張パラダイムの下で11個のLLMを評価する。
論文 参考訳(メタデータ) (2025-03-19T15:09:39Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages [36.80949728259958]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Mining Healthcare Procurement Data Using Text Mining and Natural
Language Processing -- Reflection From An Industrial Project [8.092450321868004]
我々は、医療分野における何百万もの異質な調達文書を採掘するテキストマイニングとNLPソリューションを開発する産業プロジェクトについて述べる。
ドメイン知識を効果的に活用し、複数のテキストマイニングやNLPタスクや言語に一般化する手法を用いる。
この手法を適用して数百万の調達文書をマイニングし,最初の構造化された調達契約データベースを開発する。
論文 参考訳(メタデータ) (2023-01-09T15:59:55Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。