論文の概要: TokenSmith: Streamlining Data Editing, Search, and Inspection for Large-Scale Language Model Training and Interpretability
- arxiv url: http://arxiv.org/abs/2507.19419v1
- Date: Fri, 25 Jul 2025 16:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.037502
- Title: TokenSmith: Streamlining Data Editing, Search, and Inspection for Large-Scale Language Model Training and Interpretability
- Title(参考訳): TokenSmith:大規模言語モデルトレーニングと解釈可能性のためのデータ編集,検索,検査の合理化
- Authors: Mohammad Aflah Khan, Ameya Godbole, Johnny Tian-Zheng Wei, Ryan Wang, James Flemings, Krishna Gummadi, Willie Neiswanger, Robin Jia,
- Abstract要約: TokenSmithは、データセットのインタラクティブな編集、検査、分析のためのオープンソースライブラリである。
GPT-NeoX、Megatron、NVIDIA NeMoといったMegatronスタイルの事前トレーニングフレームワークで使用されている。
- 参考スコア(独自算出の注目度): 31.76367525424116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the relationship between training data and model behavior during pretraining is crucial, but existing workflows make this process cumbersome, fragmented, and often inaccessible to researchers. We present TokenSmith, an open-source library for interactive editing, inspection, and analysis of datasets used in Megatron-style pretraining frameworks such as GPT-NeoX, Megatron, and NVIDIA NeMo. TokenSmith supports a wide range of operations including searching, viewing, ingesting, exporting, inspecting, and sampling data, all accessible through a simple user interface and a modular backend. It also enables structured editing of pretraining data without requiring changes to training code, simplifying dataset debugging, validation, and experimentation. TokenSmith is designed as a plug and play addition to existing large language model pretraining workflows, thereby democratizing access to production-grade dataset tooling. TokenSmith is hosted on GitHub1, with accompanying documentation and tutorials. A demonstration video is also available on YouTube.
- Abstract(参考訳): 事前トレーニング中のトレーニングデータとモデル行動の関係を理解することは重要であるが、既存のワークフローによってこのプロセスは煩雑で断片化され、研究者にはアクセスできないことが多い。
我々は、GPT-NeoX、Megatron、NVIDIA NeMoといったMegatronスタイルの事前トレーニングフレームワークで使用されるデータセットのインタラクティブな編集、検査、分析のためのオープンソースのライブラリであるTokenSmithを紹介する。
TokenSmithは、検索、閲覧、取り込み、エクスポート、検査、サンプリングを含む幅広い操作をサポートし、すべてシンプルなユーザインターフェースとモジュラーバックエンドを通じてアクセス可能である。
また、トレーニングコードの変更を必要とせず、構造化された事前トレーニングデータの編集を可能にし、データセットのデバッグ、バリデーション、実験を簡素化する。
TokenSmithは既存の大規模言語モデルの事前トレーニングワークフローの追加として設計されており、プロダクショングレードのデータセットツールへのアクセスを民主化している。
TokenSmithはGitHub1でホストされており、ドキュメントとチュートリアルが付属している。
デモビデオはYouTubeでも公開されている。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
画像と映像の理解において透過的な研究を行うために,完全オープンかつ再現可能なフレームワークで知覚モデル(PLM)を構築することを研究する。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
これらのギャップを埋めるために、我々は、挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-VideoBenchをリリースした。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Deep Fast Machine Learning Utils: A Python Library for Streamlined Machine Learning Prototyping [0.0]
Deep Fast Machine Learning Utils (DFMLU)ライブラリは、機械学習プロセスのアスペクトを自動化および拡張するために設計されたツールを提供する。
DFMLUはモデル開発とデータ処理をサポートする機能を提供します。
この原稿はDFMLUの機能の概要を示し、各ツールにPythonの例を提供している。
論文 参考訳(メタデータ) (2024-09-14T21:39:17Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - TrueLearn: A Python Library for Personalised Informational
Recommendations with (Implicit) Feedback [4.575111313202425]
この研究は、オンライン学習ベイズモデルのファミリーを含むTrueLearn Pythonライブラリについて説明する。
解釈可能性とユーザ制御のために、TrueLearnライブラリにはさまざまな表現が含まれており、エンドユーザーが学習者のモデルを視覚化するのに役立つ。
論文 参考訳(メタデータ) (2023-09-20T07:21:50Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - AdapterHub Playground: Simple and Flexible Few-Shot Learning with
Adapters [34.86139827292556]
事前訓練された言語モデルのオープンアクセスの普及は、最先端自然言語処理(NLP)研究の民主化につながった。
これにより、NLP以外の人たちでも、そのようなモデルを使用して、特定のユースケースに適応することが可能になります。
本研究では,一行のコードを書かずに事前学習したモデルを活用できるツールを提供することで,このギャップを克服することを目指している。
論文 参考訳(メタデータ) (2021-08-18T11:56:01Z) - LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis [3.4253416336476246]
本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。
layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。
layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
論文 参考訳(メタデータ) (2021-03-29T05:55:08Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - ktrain: A Low-Code Library for Augmented Machine Learning [0.0]
ktrainはローコードPythonライブラリで、機械学習をよりアクセスしやすく、適用しやすくする。
初心者と経験豊富な実践者の両方が構築し、トレーニングし、検査し、適用するための、洗練された最先端の機械学習モデルを簡単にするように設計されている。
論文 参考訳(メタデータ) (2020-04-19T14:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。