論文の概要: SimCT: A Simple Consistency Test Protocol in LLMs Development Lifecycle
- arxiv url: http://arxiv.org/abs/2407.17150v1
- Date: Wed, 24 Jul 2024 10:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:14:00.033452
- Title: SimCT: A Simple Consistency Test Protocol in LLMs Development Lifecycle
- Title(参考訳): SimCT: LLM開発ライフサイクルにおける簡易一貫性テストプロトコル
- Authors: Fufangchen Zhao, Guoqiang Jin, Rui Zhao, Jiangheng Huang, Fei Tan,
- Abstract要約: 我々は,SimCTという,シンプルで効果的な一貫性テストプロトコルを提案する。
SimCT は主に、"ベアメタル" LLM または関連サービスの様々な開発段階における一貫性を積極的にチェックすることを目的としている。
本プロトコルは,2つのコンポーネントに対してそれぞれLightGBMと学生のt-testを実装し,SimCTの有効性を実証するための広範囲な実験を行う。
- 参考スコア(独自算出の注目度): 10.355773781860075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we report our efforts to advance the standard operation procedure of developing Large Language Models (LLMs) or LLMs-based systems or services in industry. We introduce the concept of Large Language Model Development Lifecycle (LDLC) and then highlight the importance of consistency test in ensuring the delivery quality. The principled solution of consistency test, however, is usually overlooked by industrial practitioners and not urgent in academia, and current practical solutions are insufficiently rigours and labor-intensive. We thus propose a simple yet effective consistency test protocol, named SimCT. SimCT is mainly to proactively check the consistency across different development stages of "bare metal" LLMs or associated services without accessing the model artifacts, in an attempt to expedite the delivery by reducing the back-and-forth alignment communications among multiple teams involved in different development stages. Specifically, SimCT encompasses response-wise and model-wise tests. We implement the protocol with LightGBM and Student's t-test for two components respectively, and perform extensive experiments to substantiate the effectiveness of SimCT and the involved components.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) や LLMs ベースのシステムやサービスを産業で開発するための,標準的な運用手順の策定に向けた取り組みについて報告する。
我々は,LDLC(Large Language Model Development Lifecycle)の概念を導入し,デリバリ品質を保証する上での一貫性テストの重要性を強調した。
しかし、一貫性テストの原則的な解決策は、通常、産業従事者によって見落とされ、アカデミアでは緊急ではなく、現在の実践的な解決策は厳密で労働集約的なものである。
そこで我々は,SimCTという,シンプルで効果的な一貫性テストプロトコルを提案する。
SimCTは、主に、モデルアーティファクトにアクセスすることなく、"ベアメタル" LLM または関連するサービスの異なる開発段階間の一貫性を積極的にチェックし、異なる開発段階に関わる複数のチーム間のバック・フォー・フォー・アライメント通信を減らし、デリバリを迅速化する試みである。
具体的には、SimCTはレスポンスワイドおよびモデルワイドテストを含んでいる。
本プロトコルは,2つのコンポーネントに対してそれぞれLightGBMと学生のt-testを実装し,SimCTと関連するコンポーネントの有効性を実証するための広範囲な実験を行う。
関連論文リスト
- LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - DOLLmC: DevOps for Large Language model Customization [0.0]
本研究の目的は、LLMカスタマイズのためのスケーラブルで効率的なフレームワークを確立することである。
我々は,LLMの継続的学習,シームレスな展開,厳密なバージョン管理を向上する堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-19T15:20:27Z) - On Using Agent-based Modeling and Simulation for Studying Blockchain Systems [0.5076419064097734]
現代的なエンジニアリングアプローチを使ったソフトウェアとして開発されたシミュレーションフレームワークが必要だ。
この枠組みは, 産業事例を迅速にプロトタイピングし, 実現可能性分析を現実的に行う。
論文 参考訳(メタデータ) (2024-04-23T08:06:37Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large
Language Models for Program Testing [27.45301385265713]
単体テスト合成のためのLLMの高度化が可能な大規模データセットUniTSynを提案する。
Language Server Protocolを活用することで、UniSynは、プロジェクトごとの実行セットアップや言語ごとのセットアップなしでフォーカス-テストペアを収集するという挑戦的な目標を達成する。
実験により、UniTSynをベースとした自己回帰モデルを構築することにより、単体テスト表現の学習と理解において大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-02-04T22:48:05Z) - A Frustratingly Easy Plug-and-Play Detection-and-Reasoning Module for
Chinese Spelling Check [28.99532878196465]
我々は,中国語のスペルチェック(CSC)ワークフローを検出,推論,サブタスクの検索に分解することを提案する。
具体的には、既存のSOTA非自己回帰CSCモデルと互換性のあるプラグアンドプレイ検出・推論モジュールを設計する。
1つのモデルでトレーニングされた検出・推論モジュールは、他のモデルにもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-10-13T14:03:01Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。