論文の概要: VietJobs: A Vietnamese Job Advertisement Dataset
- arxiv url: http://arxiv.org/abs/2603.05262v1
- Date: Thu, 05 Mar 2026 15:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.288183
- Title: VietJobs: A Vietnamese Job Advertisement Dataset
- Title(参考訳): VietJobs:ベトナムの求人情報
- Authors: Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj,
- Abstract要約: VietJobsはベトナムの求人広告の大規模な公開コーパスである。
48,092件の投稿と、ベトナム全34の州や自治体から収集された1500万件以上の単語で構成されている。
職種、カテゴリー、給与、技能、雇用条件など幅広い言語情報や構造情報を提供している。
- 参考スコア(独自算出の注目度): 1.57485894481935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VietJobs is the first large-scale, publicly available corpus of Vietnamese job advertisements, comprising 48,092 postings and over 15 million words collected from all 34 provinces and municipalities across Vietnam. The dataset provides extensive linguistic and structured information, including job titles, categories, salaries, skills, and employment conditions, covering 16 occupational domains and multiple employment types (full-time, part-time, and internship). Designed to support research in natural language processing and labour market analytics, VietJobs captures substantial linguistic, regional, and socio-economic diversity. We benchmark several generative large language models (LLMs) on two core tasks: job category classification and salary estimation. Instruction-tuned models such as Qwen2.5-7B-Instruct and Llama-SEA-LION-v3-8B-IT demonstrate notable gains under few-shot and fine-tuned settings, while highlighting challenges in multilingual and Vietnamese-specific modelling for structured labour market prediction. VietJobs establishes a new benchmark for Vietnamese NLP and offers a valuable foundation for future research on recruitment language, socio-economic representation, and AI-driven labour market analysis. All code and resources are available at: https://github.com/VinNLP/VietJobs.
- Abstract(参考訳): VietJobsはベトナム初の大規模で一般公開された求人広告コーパスで、48,092件の投稿と、ベトナム全34の州や自治体から収集された1500万件以上の単語で構成されている。
このデータセットは、職種、カテゴリ、給与、スキル、雇用条件を含む広範な言語情報と構造化情報を提供し、16の職業ドメインと複数の雇用タイプ(フルタイム、パートタイム、インターンシップ)をカバーしている。
自然言語処理と労働市場分析の研究を支援するために設計されたVietJobsは、かなりの言語、地域、社会経済の多様性を捉えている。
職種分類と給与推定の2つの中核課題について,複数の生成的大規模言語モデル (LLM) をベンチマークした。
Qwen2.5-7B-InstructやLlama-SEA-LION-v3-8B-ITのようなインストラクションチューニングモデルでは、いくつかのショットや微調整設定の下で顕著な改善が見られ、一方で、構造化労働市場予測のための多言語およびベトナム固有のモデリングにおける課題が強調されている。
VietJobsはベトナムのNLPの新しいベンチマークを確立し、採用言語、社会経済的表現、AI主導の労働市場分析に関する将来の研究のための貴重な基盤を提供する。
すべてのコードとリソースは、https://github.com/VinNLP/VietJobs.comで入手できる。
関連論文リスト
- Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark [0.24999074238880487]
本研究はベトナム研究コミュニティに情報検索のための新しいベンチマークを提供することを目的としている。
また,ベトナムの埋め込みモデルの学習に使用されるInfoNCE損失関数に基づく新たな目的関数を提案する。
論文 参考訳(メタデータ) (2025-03-10T15:47:01Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models [0.0]
ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2024-04-17T05:57:17Z) - VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文 参考訳(メタデータ) (2024-03-23T16:26:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - ViDeBERTa: A powerful pre-trained language model for Vietnamese [10.000783498978604]
本稿ではベトナム語のための単言語モデルViDeBERTaについて述べる。
ViDeBERTa_xsmall、ViDeBERTa_base、ViDeBERTa_largeの3つのバージョンは、高品質で多様なベトナム語テキストの大規模コーパスで事前訓練されている。
我々は,3つの重要な自然言語下流タスク,パート・オブ・音声タギング,名前付き親和性認識,質問応答を微調整し,評価する。
論文 参考訳(メタデータ) (2023-01-25T07:26:54Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。