Fugu-MT 論文翻訳(概要): Web Archives Metadata Generation with GPT-4o: Challenges and Insights

論文の概要: Web Archives Metadata Generation with GPT-4o: Challenges and Insights

arxiv url: http://arxiv.org/abs/2411.05409v2
Date: Sat, 16 Nov 2024 02:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.714231
Title: Web Archives Metadata Generation with GPT-4o: Challenges and Insights
Title（参考訳）: GPT-4oによるWebアーカイブメタデータ生成の課題と展望
Authors: Abigail Yongping Huang, Ashwin Nair, Zhen Rong Goh, Tianrui Liu,
Abstract要約: 本稿では,Web Singapore Archiveにおけるメタデータ生成におけるgpt-4oの利用について検討する。データ削減技術を用いて112のWeb ARChive(WARC)ファイルを処理し、メタデータ生成コストを99.9%削減した。この研究は、コンテンツ不正確性、幻覚、翻訳問題を含む主要な課題を特定し、人間カタログの置き換えではなく、Large Language Models(LLM)が補体として機能すべきであることを示唆している。
参考スコア（独自算出の注目度）: 2.45723043286596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current metadata creation for web archives is time consuming and costly due to reliance on human effort. This paper explores the use of gpt-4o for metadata generation within the Web Archive Singapore, focusing on scalability, efficiency, and cost effectiveness. We processed 112 Web ARChive (WARC) files using data reduction techniques, achieving a notable 99.9% reduction in metadata generation costs. By prompt engineering, we generated titles and abstracts, which were evaluated both intrinsically using Levenshtein Distance and BERTScore, and extrinsically with human cataloguers using McNemar's test. Results indicate that while our method offers significant cost savings and efficiency gains, human curated metadata maintains an edge in quality. The study identifies key challenges including content inaccuracies, hallucinations, and translation issues, suggesting that Large Language Models (LLMs) should serve as complements rather than replacements for human cataloguers. Future work will focus on refining prompts, improving content filtering, and addressing privacy concerns through experimentation with smaller models. This research advances the integration of LLMs in web archiving, offering valuable insights into their current capabilities and outlining directions for future enhancements. The code is available at https://github.com/masamune-prog/warc2summary for further development and use by institutions facing similar challenges.
Abstract（参考訳）: Webアーカイブの現在のメタデータ生成は、人的努力に依存するため、時間とコストがかかります。本稿では,Webアーカイブシンガポールにおけるメタデータ生成におけるgpt-4oの利用について検討し,スケーラビリティ,効率,コスト効率に着目した。データ削減技術を用いて112のWeb ARChive(WARC)ファイルを処理し、メタデータ生成コストを99.9%削減した。素早い工学的手法により,Levenshtein Distance と BERTScore を用いて本質的に評価し,McNemar テストを用いて人間カタログ作成者に対して本質的に評価したタイトルと要約を生成した。以上の結果から,提案手法はコスト削減と効率向上に寄与するが,ヒトのキュレートしたメタデータは品質の限界を保っていることが示唆された。この研究は、コンテンツ不正確性、幻覚、翻訳問題を含む主要な課題を特定し、人間カタログの置き換えではなく、Large Language Models(LLM)が補体として機能すべきであることを示唆している。今後の作業は、プロンプトの精細化、コンテンツフィルタリングの改善、より小さなモデルによる実験によるプライバシー問題への対処に注力する。この研究は、WebアーカイブにおけるLLMの統合を推進し、現在の機能に関する貴重な洞察を提供し、今後の拡張に向けた方向性を概説する。コードはhttps://github.com/masamune-prog/warc2summaryで公開されている。

関連論文リスト

Exploring LLM Capabilities in Extracting DCAT-Compatible Metadata for Data Cataloging [0.1424853531377145]
データカタログは、メタデータを使用してユーザクエリに応答することで、データの探索をサポートし、加速することができる。本研究では,LLMがテキストベースのメタデータのメンテナンスを自動化し,高品質なDCAT互換メタデータを生成できるかどうかを検討する。以上の結果から,LLMは人為的コンテンツ,特に高度な意味理解を必要とするタスクに匹敵するメタデータを生成できることが示唆された。
論文参考訳（メタデータ） (2025-07-04T10:49:37Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
Automated Archival Descriptions with Federated Intelligence of LLMs [2.271344459418284]
この研究は、標準化されたアーカイブ記述プロセスを実装する際の課題に対処するために、エージェントAIと大規模言語モデル(LLM)の可能性を探ることを目的としている。そこで本稿では,AIによるAIによる高品質なメタデータ記述の自動生成システムを提案する。
論文参考訳（メタデータ） (2025-04-08T06:11:05Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Zero-Indexing Internet Search Augmented Generation for Large Language Models [15.138260067336455]
大規模言語モデルの性能向上に有効な手法として,検索用拡張生成が登場している。このアプローチは通常、静的な前処理コーパスを管理するために様々なインデックス機構を使用する内部検索モジュールに依存します。本稿では,標準検索エンジンAPIを活用して最新のオンライン情報を動的に統合する代替手法について検討する。
論文参考訳（メタデータ） (2024-11-29T05:31:04Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文参考訳（メタデータ） (2024-03-01T10:01:36Z)
Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data [22.461461600306688]
この作業は,“低品質”なコードデータの識別と削除に埋め込みを使用することに重点を置いている。まず, 組込み空間における「低品質」コードの特徴について, 合成汚職を用いて検討する。 Stackデータセットの低品質エントリを識別および削除するために、埋め込みスペースで運用する新しいプルーニングメトリクスを考案する。
論文参考訳（メタデータ） (2023-12-05T01:19:30Z)
Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文参考訳（メタデータ） (2023-10-17T14:52:33Z)
Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges [3.130575840003799]
GPT-4は、既存の読解データセットを強化するために使用できる。この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析した。
論文参考訳（メタデータ） (2023-09-21T18:48:02Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。 ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文参考訳（メタデータ） (2023-05-23T12:29:44Z)
Advanced Data Augmentation Approaches: A Comprehensive Survey and Future directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文参考訳（メタデータ） (2023-01-07T11:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。