論文の概要: Measuring Corporate Human Capital Disclosures: Lexicon, Data, Code, and Research Opportunities
- arxiv url: http://arxiv.org/abs/2506.10155v1
- Date: Wed, 11 Jun 2025 20:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.436077
- Title: Measuring Corporate Human Capital Disclosures: Lexicon, Data, Code, and Research Opportunities
- Title(参考訳): 企業における人的資本開示の測定--レキシコン、データ、コード、研究機会
- Authors: Elizabeth Demers, Victor Xiaoqi Wang, Kean Wu,
- Abstract要約: 企業価値創造には人的資本(HC)がますます重要になっている。
HCは現在、明確に定義された測定や開示の規則の対象にはなっていない。
我々は、HC関連キーワードの包括的リストを作成するために、HC開示の確認されたセットに基づいて訓練された機械学習アルゴリズム(word2vec)を使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human capital (HC) is increasingly important to corporate value creation. Unlike other assets, however, HC is not currently subject to well-defined measurement or disclosure rules. We use a machine learning algorithm (word2vec) trained on a confirmed set of HC disclosures to develop a comprehensive list of HC-related keywords classified into five subcategories (DEI; health and safety; labor relations and culture; compensation and benefits; and demographics and other) that capture the multidimensional nature of HC management. We share our lexicon, corporate HC disclosures, and the Python code used to develop the lexicon, and we provide detailed examples of using our data and code, including for fine-tuning a BERT model. Researchers can use our HC lexicon (or modify the code to capture another construct of interest) with their samples of corporate communications to address pertinent HC questions. We close with a discussion of future research opportunities related to HC management and disclosure.
- Abstract(参考訳): 企業価値創造には人的資本(HC)がますます重要になっている。
しかし、他の資産とは異なり、HCは現在、明確に定義された測定や開示規則の対象にはなっていない。
我々は、HC管理の多次元的性質を捉える5つのサブカテゴリ(DEI、健康と安全、労働関係と文化、報酬と利益、人口統計など)に分類されるHC関連キーワードの包括的リストを作成するために、確認されたHC開示のセットに基づいて訓練された機械学習アルゴリズム(word2vec)を使用する。
我々は、レキシコン、コーポレートHC開示、およびレキシコンの開発に使用されるPythonコードを共有し、BERTモデルを微調整することを含む、私たちのデータとコードの使用例を詳細に提示する。
HCレキシコン(またはコードの変更で他の興味を捉える)を企業コミュニケーションのサンプルと一緒に使用して、関連するHC問題に対処できます。
我々はHC管理と開示に関する今後の研究機会について議論する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:57:05Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - A Vulnerability Code Intent Summary Dataset [3.609135490386991]
本稿では,BADS と呼ばれる大規模多視点コードインテント・サマリ・データセットを提案する。
与えられたコードスニペットの理解を高め、コード開発プロセスのリスクを低減することを目的としている。
データセットと関連ツールがGitHubで公開されている。
論文 参考訳(メタデータ) (2025-04-11T00:39:50Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages [36.80949728259958]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - LLM-Assisted Content Analysis: Using Large Language Models to Support
Deductive Coding [0.3149883354098941]
大規模言語モデル(LLM)は、自然言語処理や推論タスクを多岐にわたって実行するAIツールである。
本研究では,従来のコンテンツ分析の柔軟性を保ちながら,帰納的符号化に要する時間を削減するため,LLMの使用について検討する。
GPT-3.5は、人間のコーダに匹敵するレベルの合意で、しばしば演能的な符号化を行うことができる。
論文 参考訳(メタデータ) (2023-06-23T20:57:32Z) - A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises [59.4999994297993]
この総合的なレビューは、医療知識グラフ(HKG)の現状の概要を提供することを目的としている。
我々は,既存のHKGに関する文献を網羅的に分析し,その構築方法,活用技術,応用について考察した。
このレビューは、HKGsが生物医学研究や臨床実践に大きな影響を与える可能性を強調している。
論文 参考訳(メタデータ) (2023-06-07T21:51:56Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - Constructing Cross-lingual Consumer Health Vocabulary with Word-Embedding from Comparable User Generated Content [2.4316589174722485]
オープンアクセスで協調的な消費者健康語彙(OAC CHV)は、このような課題に対処するための制御された語彙である。
本研究は、英語のCHVを言語横断言語に拡張するための言語間自動用語認識フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-23T10:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。