論文の概要: Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation
- arxiv url: http://arxiv.org/abs/2505.12058v1
- Date: Sat, 17 May 2025 15:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.015672
- Title: Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation
- Title(参考訳): Tiny QA Benchmark++: 連続LLM評価のための超軽量合成多言語データセット生成とスモークテスト
- Authors: Vincent Koc,
- Abstract要約: Tiny QA Benchmark++(TQB++)は、大規模言語モデル(LLM)パイプラインに、最小限のコストで数秒で実行されるユニットテストスタイルのセーフティネットデータセットを提供するように設計されている。
TQB++は52石のイングランドのゴールドセットと、プロバイダに依存しないLiteLLM上に構築された小さな合成データジェネレータのpypiパッケージを結合している。
各データセットには、OpenAI-Evals、LangChain、標準CIツール用のCroissantメタデータとプラグイン・アンド・プレイファイルが同梱されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tiny QA Benchmark++ (TQB++) presents an ultra-lightweight, multilingual smoke-test suite designed to give large-language-model (LLM) pipelines a unit-test style safety net dataset that runs in seconds with minimal cost. Born out of the tight feedback-loop demands building the Comet Opik prompt-optimization SDK, where waiting on heavyweight benchmarks breaks developer flow. TQB++ couples a 52-item English gold set (less than 20 kB) with a tiny synthetic-data generator pypi package built on provider-agnostic LiteLLM. The generator lets practitioners mint their own tiny packs in any language, domain, or difficulty, while ten ready-made packs already cover Arabic, Chinese, French, German, Japanese, Korean, Portuguese, Russian, Spanish, and Turkish. Every dataset ships with Croissant metadata and plug-and-play files for OpenAI-Evals, LangChain, and standard CI tools, so teams can drop deterministic micro-benchmarks directly into pull-request gates, prompt-engineering loops, and production dashboards without touching GPU budgets. A complete TQB++ run adds only a few seconds to pipeline latency yet reliably flags prompt-template errors, tokenizer drift, and fine-tuning side-effects long before full-scale suites like MMLU or BIG-Bench would finish configuring. The entire framework is released to accelerate continuous, resource-efficient quality assurance across the generative-AI ecosystem.
- Abstract(参考訳): Tiny QA Benchmark++ (TQB++)は、大規模言語モデル(LLM)パイプラインに、最小コストで数秒で実行されるユニットテストスタイルのセーフティネットデータセットを提供するために設計された、超軽量で多言語対応のスモークテストスイートを提供する。
厳格なフィードバックループから生まれたComet Opikプロンプト最適化SDKの構築。
TQB++は52石のイングランドのゴールドセット(20kB未満)と、プロバイダに依存しないLiteLLM上に構築された小さな合成データジェネレータのpypiパッケージを結合している。
すでにアラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、トルコ語に対応している。
各データセットには、OpenAI-Evals、LangChain、標準CIツール用のCroissantメタデータとプラグインファイルが同梱されている。
完全なTQB++実行では、レイテンシをパイプラインするのにほんの数秒しかかからないが、コンストラクタのドリフトや微調整のサイドエフェクトは、MMLUやBIG-Benchのようなフルスケールスイートがコンフィグレーションを終了するずっと前にフラグ付けされている。
フレームワーク全体がリリースされ、生成型AIエコシステム全体の継続的かつリソース効率の高い品質保証が加速される。
関連論文リスト
- RAG-Based Fuzzing of Cross-Architecture Compilers [0.8302146576157498]
OneAPIは、開発者による最小限の努力で、クロスアーキテクチャなソフトウェア開発をサポートするオープンスタンダードである。
OneAPIはDPC++とC++コンパイラを提供しており、その正確性、信頼性、セキュリティを検証するために徹底的にテストする必要がある。
本稿では,検索拡張生成(RAG)の概念を統合した大規模言語モデル (LLM) ベースのコンパイラファジィツールを提案する。
論文 参考訳(メタデータ) (2025-04-11T20:46:52Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - FuzzWiz -- Fuzzing Framework for Efficient Hardware Coverage [2.1626093085892144]
FuzzWizという自動ハードウェアファジリングフレームワークを作成しました。
RTL設計モジュールのパース、C/C++モデルへの変換、アサーション、リンク、ファジングによるジェネリックテストベンチの作成を含む。
ベンチマークの結果,従来のシミュレーション回帰手法の10倍の速度でカバー範囲の約90%を達成できた。
論文 参考訳(メタデータ) (2024-10-23T10:06:08Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers [0.8192907805418583]
本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢、多言語翻訳を英語テキストに変換する。
我々は、50の異なる非英語言語を英語に翻訳するためのHuggingface LLMリポジトリから、カスタムの微調整なしで16の異なるオープンソースGPTモデルをベンチマークした。
ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。
論文 参考訳(メタデータ) (2024-04-23T02:19:35Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。
既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文 参考訳(メタデータ) (2023-04-17T04:45:06Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。
異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-04-29T13:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。