論文の概要: AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models
- arxiv url: http://arxiv.org/abs/2501.02063v2
- Date: Tue, 07 Jan 2025 19:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 11:35:29.712207
- Title: AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models
- Title(参考訳): AGGA: 生成AIと大規模言語モデルのための学術ガイドラインのデータセット
- Authors: Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar,
- Abstract要約: 本稿では,GAI(Generative AI)とLLM(Large Language Models)の学術的利用に関する80のガイドラインをまとめたデータセットであるAGGAを紹介する。
このデータセットには188,674語が含まれており、要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
- 参考スコア(独自算出の注目度): 8.420666056013685
- License:
- Abstract: This study introduces AGGA, a dataset comprising 80 academic guidelines for the use of Generative AIs (GAIs) and Large Language Models (LLMs) in academic settings, meticulously collected from official university websites. The dataset contains 188,674 words and serves as a valuable resource for natural language processing tasks commonly applied in requirements engineering, such as model synthesis, abstraction identification, and document structure assessment. Additionally, AGGA can be further annotated to function as a benchmark for various tasks, including ambiguity detection, requirements categorization, and the identification of equivalent requirements. Our methodologically rigorous approach ensured a thorough examination, with a selection of universities that represent a diverse range of global institutions, including top-ranked universities across six continents. The dataset captures perspectives from a variety of academic fields, including humanities, technology, and both public and private institutions, offering a broad spectrum of insights into the integration of GAIs and LLMs in academia.
- Abstract(参考訳): 本稿では,GAI(Generative AIs)とLLM(Large Language Models)の学術的利用に関する80のガイドラインからなるデータセットであるAGGAを紹介する。
このデータセットには188,674語が含まれており、モデル合成、抽象化識別、文書構造評価などの要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
さらに、AGGAはあいまいさの検出、要件分類、同等の要件の識別など、さまざまなタスクのベンチマークとして機能するように注釈付けすることもできる。
方法論的に厳格なアプローチは、6大陸にまたがる上位の大学を含む多種多様なグローバルな機関を代表する大学を選定し、徹底的な審査を確実にした。
このデータセットは、人文科学、技術、公的および民間の機関など、さまざまな学術分野の視点を捉え、学術におけるGAIとLLMの統合に関する幅広い洞察を提供する。
関連論文リスト
- A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications [0.0838491111002084]
本稿では,生物情報学の知識グラフを用いた人文自然言語質問とそれに対応するSPARQLクエリについて紹介する。
既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:08:07Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for
Language Models [153.14575887549088]
GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。
GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。
サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
論文 参考訳(メタデータ) (2024-02-20T15:00:35Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - AcademicGPT: Empowering Academic Research [19.175478235030234]
アカデミックGPT(AcademicGPT)は、LLaMA2-70Bから派生した連続訓練モデルである。
学習コーパスは主に学術論文、論文、一部の学術ドメインからのコンテンツ、高品質な中国語データなどで構成されています。
また、AcademicGPTの基礎モデルに基づいて、一般学術質問回答、AI支援論文読解、論文レビュー、AI支援タイトル・抽象生成など、学術分野向けのいくつかのアプリケーションを開発した。
論文 参考訳(メタデータ) (2023-11-21T03:17:14Z) - Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language
Model [45.419270950610624]
oag-bertはpaper, author, concept, venue, そしてアフィリエーションを含む巨大な異種エンティティを統合する。
ヘテロジニアスなエンティティ型埋め込み,エンティティアウェアな2次元位置符号化,スパンアウェアなエンティティマスキングを含む新しい事前学習戦略を開発した。
OAG-BERTは、NSFC(中国国立自然科学財団)のレビュアーレコメンデーションや、AMinerシステムのペーパータグ付けなど、複数の実世界のアプリケーションに展開されています。
論文 参考訳(メタデータ) (2021-03-03T14:00:57Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。