Fugu-MT 論文翻訳(概要): The "Collections as ML Data" Checklist for Machine Learning & Cultural Heritage

論文の概要: The "Collections as ML Data" Checklist for Machine Learning & Cultural Heritage

arxiv url: http://arxiv.org/abs/2207.02960v1
Date: Wed, 6 Jul 2022 20:35:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-09 05:20:11.557306
Title: The "Collections as ML Data" Checklist for Machine Learning & Cultural Heritage
Title（参考訳）: 機械学習と文化遺産のための「MLデータとしてのコレクション」チェックリスト
Authors: Benjamin Charles Germain Lee
Abstract要約: デジタルコレクションに機械学習を適用する際に、重要な社会技術レンズを検討する努力が増えている。マシンラーニングプロジェクトに着手する実践者のために作られたガイドラインは、まだ数多く残っています。本稿では,機械学習プロジェクトの開発において採用可能な質問やプラクティスをガイドする詳細なチェックリストを定式化することによって,このニーズに寄与する。
参考スコア（独自算出の注目度）: 0.20305676256390934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Within the cultural heritage sector, there has been a growing and concerted effort to consider a critical sociotechnical lens when applying machine learning techniques to digital collections. Though the cultural heritage community has collectively developed an emerging body of work detailing responsible operations for machine learning in libraries and other cultural heritage institutions at the organizational level, there remains a paucity of guidelines created specifically for practitioners embarking on machine learning projects. The manifold stakes and sensitivities involved in applying machine learning to cultural heritage underscore the importance of developing such guidelines. This paper contributes to this need by formulating a detailed checklist with guiding questions and practices that can be employed while developing a machine learning project that utilizes cultural heritage data. I call the resulting checklist the "Collections as ML Data" checklist, which, when completed, can be published with the deliverables of the project. By surveying existing projects, including my own project, Newspaper Navigator, I justify the "Collections as ML Data" checklist and demonstrate how the formulated guiding questions can be employed and operationalized.
Abstract（参考訳）: 文化遺産部門では、デジタルコレクションに機械学習技術を適用する際に重要な社会技術的レンズを考えるための努力が増えている。文化遺産コミュニティは、組織レベルでの図書館その他の文化遺産機関における機械学習の責任を負う業務を詳述する新たな団体を組織的に開発してきたが、機械学習プロジェクトに乗り出す実践者専用のガイドラインが残されている。文化遺産に機械学習を適用することに関わる多様体の利害と感性は、こうしたガイドラインの開発の重要性を浮き彫りにしている。本稿では,文化遺産データを活用した機械学習プロジェクトの開発において,活用可能な質問や実践を指導する詳細なチェックリストを作成することで,このニーズに寄与する。私は、結果のチェックリストを"コレクション・アズ・mlデータ"チェックリストと呼んでいます。私のプロジェクトであるNewspaper Navigatorを含む既存のプロジェクトを調査して、"Collections as ML Data"チェックリストを正当化し、定式化されたガイドの質問をどのように採用し、運用するかを示します。

関連論文リスト

LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文参考訳（メタデータ） (2026-01-25T20:05:04Z)
Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。文化理論を基礎として、異文化の能力を9次元に分類する。データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文参考訳（メタデータ） (2025-12-08T01:21:58Z)
Culture Cartography: Mapping the Landscape of Cultural Knowledge [50.502555170749694]
グローバルなユーザを安全かつ生産的に提供するためには、LLMには、事前トレーニング中に学ばない文化固有の知識が必要だ。カルチャーカルトグラフィーと呼ばれる混合開始法を提案する。ここで、LCMは、信頼度が低い回答を質問して注釈を初期化し、それ以前の知識とそのギャップの両方を明確にする。これにより、人間の応答者がこれらのギャップを埋めて、直接編集することで、適切なトピックに向けてモデルを操ることが可能になる。 LLMが提案する質問に人間が答えるベースラインと比較すると、CultureExplorerはDeepSeek R1やGPT-4oのような主要なモデルが持つ知識をより効果的に生成することがわかった。
論文参考訳（メタデータ） (2025-10-31T17:37:34Z)
CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。実験結果から,文化的理解を効果的に評価できることが示唆された。
論文参考訳（メタデータ） (2025-09-19T17:47:48Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
An Investigation into Value Misalignment in LLM-Generated Texts for Cultural Heritage [5.893281327912503]
大型言語モデル(LLM)は、文化遺産に関連するタスクでますます普及している。古文書の翻訳、口伝の保存、教育内容の制作など、歴史的記念物の記述を作成するのに用いられる。しかし、歴史的事実の誤表現、文化的なアイデンティティの侵食、複雑な文化的な物語の単純化など、文化的な価値の誤認識は発生した文献に存在している可能性がある。
論文参考訳（メタデータ） (2025-01-03T14:35:32Z)
Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects [7.450700594277742]
我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
論文参考訳（メタデータ） (2024-07-09T15:49:47Z)
Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (2024-05-28T08:01:26Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
Generative Software Engineering [23.584814591463406]
本稿では,事前学習モデルと大規模言語モデル(LLM)を用いたソフトウェア工学における生成タスクの文献レビューを行う。 LLMには強力な言語表現と文脈認識能力があり、多様なトレーニングデータを活用し、生成タスクに適応することができる。我々は、既存のアプローチにおける重要な強み、弱点、ギャップを特定し、潜在的研究の方向性を提案する。
論文参考訳（メタデータ） (2024-03-05T01:37:37Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文参考訳（メタデータ） (2024-01-31T20:29:50Z)
Automated Machine Learning in the smart construction era:Significance and accessibility for industrial classification and regression tasks [6.206133097433925]
本稿では,自動機械学習(AutoML)技術の建築産業への適用について検討する。 AutoMLを利用することで、建設専門家はソフトウェアを使用して産業データをプロジェクト管理を支援するMLモデルに処理できる。
論文参考訳（メタデータ） (2023-08-03T03:17:22Z)
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文参考訳（メタデータ） (2023-06-05T23:32:26Z)
DC-Check: A Data-Centric AI checklist to guide the development of reliable machine learning systems [81.21462458089142]
データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。データ中心の考慮事項を抽出する実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。この開発におけるデータ中心のレンズは、システム開発に先立って思考力と透明性を促進することを目的としている。
論文参考訳（メタデータ） (2022-11-09T17:32:09Z)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。 MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文参考訳（メタデータ） (2022-05-04T19:38:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。