論文の概要: Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets
- arxiv url: http://arxiv.org/abs/2409.04286v1
- Date: Fri, 6 Sep 2024 13:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:44:50.404028
- Title: Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets
- Title(参考訳): 大規模言語モデルを用いた認証型マルチエージェント作業データセットの生成
- Authors: Desiree Heim, Christian Jilek, Adrian Ulges, Andreas Dengel,
- Abstract要約: 現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。
本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。
実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。
- 参考スコア(独自算出の注目度): 5.465422605475246
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current publicly available knowledge work data collections lack diversity, extensive annotations, and contextual information about the users and their documents. These issues hinder objective and comparable data-driven evaluations and optimizations of knowledge work assistance systems. Due to the considerable resources needed to collect such data in real-life settings and the necessity of data censorship, collecting such a dataset appears nearly impossible. For this reason, we propose a configurable, multi-agent knowledge work dataset generator. This system simulates collaborative knowledge work among agents producing Large Language Model-generated documents and accompanying data traces. Additionally, the generator captures all background information, given in its configuration or created during the simulation process, in a knowledge graph. Finally, the resulting dataset can be utilized and shared without privacy or confidentiality concerns. This paper introduces our approach's design and vision and focuses on generating authentic knowledge work documents using Large Language Models. Our study involving human raters who assessed 53% of the generated and 74% of the real documents as realistic demonstrates the potential of our approach. Furthermore, we analyze the authenticity criteria mentioned in the participants' comments and elaborate on potential improvements for identified common issues.
- Abstract(参考訳): 現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。
これらの問題は、知識労働支援システムの客観的かつ同等のデータ駆動評価と最適化を妨げる。
このようなデータを実生活で収集するために必要な膨大なリソースとデータ検閲の必要性のため、そのようなデータセットの収集はほぼ不可能に思える。
そこで本稿では,構成可能なマルチエージェント型知識ワークデータセット生成手法を提案する。
本システムは,大規模言語モデル生成文書作成エージェント間の協調的知識労働をシミュレートする。
さらに、ジェネレータは、その構成またはシミュレーションプロセス中に作成されたすべてのバックグラウンド情報を知識グラフでキャプチャする。
最後に、結果のデータセットは、プライバシや機密性に関する懸念なく利用および共有することができる。
本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。
実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。
さらに,参加者のコメントに記載された信頼度基準を分析し,共通の問題に対する潜在的な改善について詳しく検討した。
関連論文リスト
- Benchmarking pre-trained text embedding models in aligning built asset information [0.0]
本研究では、組立資産情報とドメイン固有の技術的概念の整合性を評価するため、最先端のテキスト埋め込みモデルの比較ベンチマークを提案する。
提案した6つのデータセットを対象としたベンチマークの結果は、クラスタリング、検索、再ランク付けの3つのタスクをカバーし、将来のドメイン適応技術の研究の必要性を強調している。
論文 参考訳(メタデータ) (2024-11-18T20:54:17Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Controllable Data Generation by Deep Learning: A Review [22.582082771890974]
制御可能な深層データ生成は有望な研究領域であり、一般に制御可能な深部データ生成として知られている。
本稿では、制御可能な深層データ生成のエキサイティングな応用を紹介し、既存の研究を実験的に分析し比較する。
論文 参考訳(メタデータ) (2022-07-19T20:44:42Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。