論文の概要: The "Collections as ML Data" Checklist for Machine Learning & Cultural
Heritage
- arxiv url: http://arxiv.org/abs/2207.02960v1
- Date: Wed, 6 Jul 2022 20:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 05:20:11.557306
- Title: The "Collections as ML Data" Checklist for Machine Learning & Cultural
Heritage
- Title(参考訳): 機械学習と文化遺産のための「MLデータとしてのコレクション」チェックリスト
- Authors: Benjamin Charles Germain Lee
- Abstract要約: デジタルコレクションに機械学習を適用する際に、重要な社会技術レンズを検討する努力が増えている。
マシンラーニングプロジェクトに着手する実践者のために作られたガイドラインは、まだ数多く残っています。
本稿では,機械学習プロジェクトの開発において採用可能な質問やプラクティスをガイドする詳細なチェックリストを定式化することによって,このニーズに寄与する。
- 参考スコア(独自算出の注目度): 0.20305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the cultural heritage sector, there has been a growing and concerted
effort to consider a critical sociotechnical lens when applying machine
learning techniques to digital collections. Though the cultural heritage
community has collectively developed an emerging body of work detailing
responsible operations for machine learning in libraries and other cultural
heritage institutions at the organizational level, there remains a paucity of
guidelines created specifically for practitioners embarking on machine learning
projects. The manifold stakes and sensitivities involved in applying machine
learning to cultural heritage underscore the importance of developing such
guidelines. This paper contributes to this need by formulating a detailed
checklist with guiding questions and practices that can be employed while
developing a machine learning project that utilizes cultural heritage data. I
call the resulting checklist the "Collections as ML Data" checklist, which,
when completed, can be published with the deliverables of the project. By
surveying existing projects, including my own project, Newspaper Navigator, I
justify the "Collections as ML Data" checklist and demonstrate how the
formulated guiding questions can be employed and operationalized.
- Abstract(参考訳): 文化遺産部門では、デジタルコレクションに機械学習技術を適用する際に重要な社会技術的レンズを考えるための努力が増えている。
文化遺産コミュニティは、組織レベルでの図書館その他の文化遺産機関における機械学習の責任を負う業務を詳述する新たな団体を組織的に開発してきたが、機械学習プロジェクトに乗り出す実践者専用のガイドラインが残されている。
文化遺産に機械学習を適用することに関わる多様体の利害と感性は、こうしたガイドラインの開発の重要性を浮き彫りにしている。
本稿では,文化遺産データを活用した機械学習プロジェクトの開発において,活用可能な質問や実践を指導する詳細なチェックリストを作成することで,このニーズに寄与する。
私は、結果のチェックリストを"コレクション・アズ・mlデータ"チェックリストと呼んでいます。
私のプロジェクトであるNewspaper Navigatorを含む既存のプロジェクトを調査して、"Collections as ML Data"チェックリストを正当化し、定式化されたガイドの質問をどのように採用し、運用するかを示します。
関連論文リスト
- Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects [7.450700594277742]
我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。
ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。
最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
論文 参考訳(メタデータ) (2024-07-09T15:49:47Z) - Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。
この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文 参考訳(メタデータ) (2024-05-28T08:01:26Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Generative Software Engineering [23.584814591463406]
本稿では,事前学習モデルと大規模言語モデル(LLM)を用いたソフトウェア工学における生成タスクの文献レビューを行う。
LLMには強力な言語表現と文脈認識能力があり、多様なトレーニングデータを活用し、生成タスクに適応することができる。
我々は、既存のアプローチにおける重要な強み、弱点、ギャップを特定し、潜在的研究の方向性を提案する。
論文 参考訳(メタデータ) (2024-03-05T01:37:37Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Automated Machine Learning in the smart construction era:Significance
and accessibility for industrial classification and regression tasks [6.206133097433925]
本稿では,自動機械学習(AutoML)技術の建築産業への適用について検討する。
AutoMLを利用することで、建設専門家はソフトウェアを使用して産業データをプロジェクト管理を支援するMLモデルに処理できる。
論文 参考訳(メタデータ) (2023-08-03T03:17:22Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - DC-Check: A Data-Centric AI checklist to guide the development of
reliable machine learning systems [81.21462458089142]
データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。
データ中心の考慮事項を抽出する実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。
この開発におけるデータ中心のレンズは、システム開発に先立って思考力と透明性を促進することを目的としている。
論文 参考訳(メタデータ) (2022-11-09T17:32:09Z) - Machine Learning Operations (MLOps): Overview, Definition, and
Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。
MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。
必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文 参考訳(メタデータ) (2022-05-04T19:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。