論文の概要: An Empirical Framework for Evaluating Semantic Preservation Using Hugging Face
- arxiv url: http://arxiv.org/abs/2512.07983v1
- Date: Mon, 08 Dec 2025 19:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.700499
- Title: An Empirical Framework for Evaluating Semantic Preservation Using Hugging Face
- Title(参考訳): ふわふわした顔を用いた意味保存の実証的枠組み
- Authors: Nan Jia, Anita Raja, Raffi Khatchadourian,
- Abstract要約: 我々は,LESSにおける意味保存を,知的コンポーネントの最適化がシステム全体の機能的振る舞いを変化させない特性として定義する。
本稿では,HuggingFaceのマイニングモデル進化データを用いて,LESSにおける意味的保存を評価するための実証的枠組みを提案する。
- 参考スコア(独自算出の注目度): 2.8203629958608722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As machine learning (ML) becomes an integral part of high-autonomy systems, it is critical to ensure the trustworthiness of learning-enabled software systems (LESS). Yet, the nondeterministic and run-time-defined semantics of ML complicate traditional software refactoring. We define semantic preservation in LESS as the property that optimizations of intelligent components do not alter the system's overall functional behavior. This paper introduces an empirical framework to evaluate semantic preservation in LESS by mining model evolution data from HuggingFace. We extract commit histories, $\textit{Model Cards}$, and performance metrics from a large number of models. To establish baselines, we conducted case studies in three domains, tracing performance changes across versions. Our analysis demonstrates how $\textit{semantic drift}$ can be detected via evaluation metrics across commits and reveals common refactoring patterns based on commit message analysis. Although API constraints limited the possibility of estimating a full-scale threshold, our pipeline offers a foundation for defining community-accepted boundaries for semantic preservation. Our contributions include: (1) a large-scale dataset of ML model evolution, curated from 1.7 million Hugging Face entries via a reproducible pipeline using the native HF hub API, (2) a practical pipeline for the evaluation of semantic preservation for a subset of 536 models and 4000+ metrics and (3) empirical case studies illustrating semantic drift in practice. Together, these contributions advance the foundations for more maintainable and trustworthy ML systems.
- Abstract(参考訳): 機械学習(ML)がハイオートノミーシステムの不可欠な部分となるにつれ、学習可能なソフトウェアシステム(LESS)の信頼性を確保することが重要である。
しかし、MLの非決定的かつ実行時定義のセマンティクスは、従来のソフトウェアリファクタリングを複雑にします。
我々は,LESSにおける意味保存を,知的コンポーネントの最適化がシステム全体の機能的振る舞いを変化させない特性として定義する。
本稿では,HuggingFaceのマイニングモデル進化データを用いて,LESSにおける意味的保存を評価するための実証的枠組みを提案する。
コミット履歴、$\textit{Model Cards}$、多数のモデルからパフォーマンスメトリクスを抽出します。
ベースラインを確立するため、3つのドメインでケーススタディを行い、バージョン間のパフォーマンス変化をトレースした。
我々の分析は、$\textit{semantic drift}$がコミット間で評価指標によってどのように検出できるかを示し、コミットメッセージ分析に基づいた一般的なリファクタリングパターンを明らかにする。
API制約は、本格的なしきい値の推定可能性を制限するが、私たちのパイプラインは、セマンティックな保存のために、コミュニティが受け入れるバウンダリを定義する基盤を提供する。
1)HFハブAPIを用いた再現可能なパイプラインによる170万のHugging Faceエントリから算出したMLモデル進化の大規模データセット,(2) 536モデルのサブセットと4000以上のメトリクスのセマンティック保存を評価するための実践的パイプライン,(3)実際にセマンティックドリフトを実証する実証的ケーススタディ。
これらの貢献により、より保守的で信頼性の高いMLシステムの基礎が前進する。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。