論文の概要: 10 Simple Rules for Improving Your Standardized Fields and Terms
- arxiv url: http://arxiv.org/abs/2510.21825v1
- Date: Tue, 21 Oct 2025 23:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.589479
- Title: 10 Simple Rules for Improving Your Standardized Fields and Terms
- Title(参考訳): 標準化されたフィールドと用語を改善するための10の簡単なルール
- Authors: Rhiannon Cameron, Emma Griffiths, Damion Dooley, William Hsiao,
- Abstract要約: 文脈メタデータは研究データの無意味な英雄である。
本稿では、語彙標準化の驚くほど難しいプロセスに取り組む。
我々は、一般的な課題(セマンティックノイズや概念爆弾など)を強調し、それらに対処するための実行可能な戦略を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual metadata is the unsung hero of research data. When done right, standardized and structured vocabularies make your data findable, shareable, and reusable. When done wrong, they turn a well intended effort into data cleanup and curation nightmares. In this paper we tackle the surprisingly tricky process of vocabulary standardization with a mix of practical advice and grounded examples. Drawing from real-world experience in contextual data harmonization, we highlight common challenges (e.g., semantic noise and concept bombs) and provide actionable strategies to address them. Our rules emphasize alignment with Findability, Accessibility, Interoperability, and Reusability (FAIR) principles while remaining adaptable to evolving user and research needs. Whether you are curating datasets, designing a schema, or contributing to a standards body, these rules aim to help you create metadata that is not only technically sound but also meaningful to users.
- Abstract(参考訳): 文脈メタデータは研究データの無意味な英雄である。
正しく完了すると、標準化された構造化された語彙によって、データの発見、共有、再利用が可能になります。
間違った処理を行うと、意図された努力をデータクリーンアップとキュレーションの悪夢に変えます。
本稿では,実例と実例を混在させて,語彙標準化の驚くほど難しいプロセスに取り組む。
文脈データ調和における現実世界の経験から、我々は共通の課題(セマンティックノイズや概念爆弾など)を強調し、それらに取り組むための実行可能な戦略を提供する。
私たちのルールは、ユーザと研究のニーズの進化に適応しながら、ファインダビリティ、アクセシビリティ、インターオペラビリティ、再利用可能性(FAIR)の原則との整合性を強調します。
データセットのキュレーション、スキーマの設計、あるいは標準化団体へのコントリビューションなど、これらのルールは、技術的に健全なだけでなく、ユーザにとって有意義なメタデータの作成を支援することを目的としています。
関連論文リスト
- Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Compositional Generalisation for Explainable Hate Speech Detection [52.41588643566991]
ヘイトスピーチ検出はオンラインコンテンツモデレーションの鍵であるが、現在のモデルはトレーニングデータ以上の一般化に苦慮している。
モデルがよりきめ細かなスパンレベルのアノテーションでトレーニングされている場合でも、それらのラベルの意味を周囲のコンテキストから切り離すことに苦労しています。
本研究では,すべての文脈で同じ頻度で表現が生じるデータセット上でのトレーニングにより,一般化が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-04T13:07:36Z) - Rule By Example: Harnessing Logical Rules for Explainable Hate Speech
Detection [13.772240348963303]
Rule By Example(RBE)は、テキストコンテンツモデレーションのタスクに対する論理規則から学習するための、新規なコントラスト学習手法である。
RBEはルール基底の予測を提供することができ、典型的なディープラーニングベースのアプローチと比較して説明可能でカスタマイズ可能な予測を可能にする。
論文 参考訳(メタデータ) (2023-07-24T16:55:37Z) - On Improving Summarization Factual Consistency from Natural Language
Feedback [35.03102318835244]
自然言語における情報フィードバックが生成品質とユーザの嗜好の整合性を改善するために活用できるかどうかを検討する。
人間の実演と情報自然言語フィードバックを含む高品質なデータセットであるDeFactoを収集する。
DeFactoは、現実的に一貫性のある人文編集の要約を提供することができる。
論文 参考訳(メタデータ) (2022-12-20T02:47:37Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - Metadata Shaping: Natural Language Annotations for the Tail [4.665656172490747]
言語モデル(LM)は目覚ましい進歩を遂げているが、訓練データから稀な言語パターンへの一般化に苦慮している。
本稿では,情報理論の指標に基づく例に,エンティティ記述やカテゴリタグなどの手軽に利用できるメタデータを付加する手法を提案する。
LMの変更はないが、メタデータの整形はBERTベースラインを5.3F1ポイントまで越え、最先端の結果と競合する。
論文 参考訳(メタデータ) (2021-10-16T01:00:47Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。