論文の概要: HUGO-CS: A Hybrid-Labeled, Uncertainty-Aware, General-Purpose, Observational Dataset for Cold Spray
- arxiv url: http://arxiv.org/abs/2605.04257v1
- Date: Tue, 05 May 2026 19:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.522698
- Title: HUGO-CS: A Hybrid-Labeled, Uncertainty-Aware, General-Purpose, Observational Dataset for Cold Spray
- Title(参考訳): HUGO-CS:冷間噴霧用ハイブリッドラベル・不確かさ認識・汎用観測データ
- Authors: Stephen Price, Kyle Miller, Marco Musto, Kenneth Kroenlein, James Saal, Kyle Tsaknopoulos, Elke A. Rundensteiner, Danielle L. Cote,
- Abstract要約: この研究は、1,124ソースの144個の特徴を持つ4,383個のコールドスプレー実験の文献由来のデータセットであるHUGO-CSを提示する。
1文書あたりの平均91分を要する完全に手作業による抽出では、この抽出をサポートするためにHUGOと呼ばれるハイブリッドラベルで不確実性を認識し、汎用的な観測用抽出フレームワークを設計・利用している。
- 参考スコア(独自算出の注目度): 9.014614312765397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cold spraying is an increasingly common approach for repairing and manufacturing components due to its solid-state manufacturing capabilities. However, process optimization remains difficult due to many interdependent parameters and the lack of large-scale, machine-readable data to support modeling. While the scientific literature contains many relevant experiments, results are inconsistently reported (often in tables and figures) and use non-uniform units, limiting utilization at scale. To address these limitations, this work presents HUGO-CS, a literature-derived dataset of 4,383 cold-spray experiments with 144 features from 1,124 sources, exceeding the previous largest dataset (137 samples) by 30x. With completely manual extraction requiring an average of 91 minutes per document, this work designs and leverages a Hybrid-labeled, Uncertainty-aware, General-purpose, Observational extraction framework, called HUGO, to support this extraction. HUGO combines automated LLM-based labeling with targeted manual label refinement to handle this experimental result extraction process from scientific literature. To balance labeling efficiency with extraction accuracy, HUGO introduces a Hierarchical Risk Mitigation (HRM) to route LLM outputs with a high risk of potential errors for manual review, while retaining low-risk records as auto-labeled. Lastly, HUGO post-processing consolidates categorical descriptors, maps reported feedstock chemistries into structured continuous compositions, and normalizes units across sources. Of the 4,383 reported experiments, 1,765 are hand-labeled, providing a high-quality labeled subset for benchmarking, error analysis, and higher-fidelity data points. All code to replicate this work, along with the complete HUGO-CS dataset, are released under a CC-BY license at https://github.com/sprice134/HUGO.
- Abstract(参考訳): コールドスプレーは、その固体製造能力のために、部品の修理と製造において、ますます一般的なアプローチである。
しかし、多くの相互依存パラメータとモデリングをサポートする大規模な機械可読データがないため、プロセスの最適化は依然として困難である。
科学文献には多くの関連する実験が含まれているが、結果は矛盾なく報告され(しばしば表や図で)、一様でない単位を使用し、スケールでの利用を制限する。
これらの制限に対処するため、HUGO-CSは文献由来の4,383個のコールドスプレー実験を行い、1,124個のソースから144個の特徴を抽出し、以前の最大データセット(137個のサンプル)を30倍に上った。
1文書あたりの平均91分を要する完全に手作業による抽出では、この抽出をサポートするためにHUGOと呼ばれるハイブリッドラベル付き、不確実性を認識し、汎用的な観測的抽出フレームワークを設計・利用している。
HUGOは、科学文献からこの実験結果抽出プロセスを処理するために、自動LLMラベリングと目標手動ラベルリファインメントを組み合わせる。
ラベル付け効率と抽出精度のバランスをとるため、HUGOは階層的リスク軽減(Hierarchical Risk Mitigation, HRM)を導入する。
最後に、HUGO後処理は分類記述子、報告された家畜の化学成分を構造化された連続的な組成に集約し、ソースをまたいだ単位を正規化する。
4,383の実験のうち、1,765は手作業でラベル付けされ、ベンチマーク、エラー解析、高忠実度データポイントのための高品質なラベル付きサブセットを提供する。
この作業を複製するすべてのコードと完全なHUGO-CSデータセットは、CC-BYライセンスの下でhttps://github.com/sprice134/HUGOでリリースされている。
関連論文リスト
- LitXBench: A Benchmark for Extracting Experiments from Scientific Literature [0.0]
本稿では,文献から実験を抽出するベンチマーク手法のフレームワークであるLitXBenchを紹介する。
また、19個の合金紙から1426個の全測定値からなる高密度ベンチマークLitXAlloyも提示した。
論文 参考訳(メタデータ) (2026-04-08T23:31:31Z) - From Papers to Property Tables: A Priority-Based LLM Workflow for Materials Data Extraction [1.0901176137697233]
本稿では, 構造的, ショットレベルの衝撃物理実験記録を自動的に抽出し, 再構成するための, 即時駆動型階層的ワークフローを提案する。
パイプラインは1ショット当たり37の実験的なフィールドをターゲットにし、3段階の優先順位戦略を適用した。
ワークフローの精度は94.93%(T1)、92.04%(T2)、83.49%(T3)、全体的な重み付け精度は94.69%であった。
論文 参考訳(メタデータ) (2026-04-08T20:37:17Z) - SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering [50.6117007117789]
HaDolaは4つの段階(識別、自己アノテーション、エラートリガー、トレーニング)で動作し、有害なサンプルを反復的に識別し、情報的なものを優先順位付けし、小さなシードセットからブートストラップする。
提案手法は,高コストなHUアノテーションへの依存を大幅に低減し,VLMの精度と校正性を向上する。
論文 参考訳(メタデータ) (2025-10-13T11:35:30Z) - LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision [13.437102865245285]
本稿では,コンピュータビジョンのための初のデータキュレーションディープリサーチエージェントであるLabeling Copilotを紹介する。
大規模なマルチモーダル言語モデルを利用する中央オーケストレータエージェントは、多段階推論を使用して、3つのコア機能にまたがる特殊なツールを実行する。
論文 参考訳(メタデータ) (2025-09-26T17:55:26Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Semi-Supervised Defect Detection via Conditional Diffusion and CLIP-Guided Noise Filtering [8.132909775584395]
本稿では条件拡散(DSYM)に基づく半教師付き欠陥検出フレームワークを提案する。
条件拡散モデルでは,複数スケールの擬似欠陥サンプルを合成し,CLIPクロスモーダル特徴量に基づくノイズフィルタリング機構によりラベル汚染を緩和する。
本研究は,工業品質検査シナリオにおける欠陥検出のための高精度で低ラベル依存のソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-08T01:53:34Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。