論文の概要: Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset
- arxiv url: http://arxiv.org/abs/2404.10505v1
- Date: Tue, 16 Apr 2024 12:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:53:59.442706
- Title: Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset
- Title(参考訳): RLKWiCデータセットによる実生活知識作業のデータ収集
- Authors: Mahta Bakhshizadeh, Christian Jilek, Markus Schröder, Heiko Maus, Andreas Dengel,
- Abstract要約: 本稿では,コンテキストにおける実生活知識労働の新たなデータセットであるRLKWiCについて述べる。
RLKWiCは、多くの必須情報次元を提供する最初の公開データセットである。
- 参考スコア(独自算出の注目度): 4.388282062290401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the years, various approaches have been employed to enhance the productivity of knowledge workers, from addressing psychological well-being to the development of personal knowledge assistants. A significant challenge in this research area has been the absence of a comprehensive, publicly accessible dataset that mirrors real-world knowledge work. Although a handful of datasets exist, many are restricted in access or lack vital information dimensions, complicating meaningful comparison and benchmarking in the domain. This paper presents RLKWiC, a novel dataset of Real-Life Knowledge Work in Context, derived from monitoring the computer interactions of eight participants over a span of two months. As the first publicly available dataset offering a wealth of essential information dimensions (such as explicated contexts, textual contents, and semantics), RLKWiC seeks to address the research gap in the personal information management domain, providing valuable insights for modeling user behavior.
- Abstract(参考訳): 長年にわたり、心理学的幸福から個人的知識アシスタントの開発に至るまで、知識労働者の生産性を高めるための様々なアプローチが採用されてきた。
この研究領域における重要な課題は、現実世界の知識労働を反映した包括的で公開可能なデータセットが存在しないことである。
少数のデータセットが存在するが、その多くはアクセスや重要な情報次元の欠如に制限されており、ドメインにおける意味のある比較とベンチマークを複雑にしている。
本稿では,8人の参加者のコンピュータインタラクションを2ヶ月にわたって監視することから得られた,コンテキストにおけるリアルライフ知識ワークの新たなデータセットであるRLKWiCを提案する。
RLKWiCは、多くの重要な情報次元(説明コンテキスト、テキストの内容、セマンティックスなど)を提供する最初の公開データセットとして、個人情報管理領域における研究ギャップに対処し、ユーザの振る舞いをモデル化するための貴重な洞察を提供しようとしている。
関連論文リスト
- Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets [5.465422605475246]
現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。
本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。
実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。
論文 参考訳(メタデータ) (2024-09-06T13:53:28Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Interpreting Deep Knowledge Tracing Model on EdNet Dataset [67.81797777936868]
この作業では、EdNetと呼ばれる大規模で新しく利用可能なデータセット上で、同様のタスクを実行します。
予備実験の結果,解釈手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-31T07:18:59Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。