Fugu-MT 論文翻訳(概要): Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets

論文の概要: Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets

arxiv url: http://arxiv.org/abs/2505.02854v1
Date: Fri, 02 May 2025 12:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.036496
Title: Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets
Title（参考訳）: 汎用ユースケースのための生成AIシステムの再現性を保証する:回帰テストとオープンデータセットのためのフレームワーク
Authors: Masumi Morishige, Ryo Koshihara,
Abstract要約: 汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reproducibility and reliability remain pressing challenges for generative AI systems whose behavior can drift with each model update or prompt revision. We introduce GPR-bench, a lightweight, extensible benchmark that operationalizes regression testing for general purpose use cases. GPR-bench couples an open, bilingual (English and Japanese) dataset covering eight task categories (e.g., text generation, code generation, and information retrieval) and 10 scenarios in each task categories (80 total test cases for each language) with an automated evaluation pipeline that employs "LLM-as-a-Judge" scoring of correctness and conciseness. Experiments across three recent model versions - gpt-4o-mini, o3-mini, and o4-mini - and two prompt configurations (default versus concise-writing instruction) reveal heterogeneous quality. Our results show that newer models generally improve correctness, but the differences are modest and not statistically significant, suggesting that GPR-bench may not be sufficiently challenging to differentiate between recent model versions. In contrast, the concise-writing instruction significantly enhances conciseness (+12.37 pp, Mann-Whitney U test: p < 0.001, effect size r = 0.2995) with minimal degradations on accuracy (-1.7 pp), demonstrating the effectiveness of prompt engineering. Released under the MIT License, GPR- bench lowers the barrier to initiating reproducibility monitoring and provides a foundation for community-driven extensions, while also raising important considerations about benchmark design for rapidly evolving language models.
Abstract（参考訳）: 再現性と信頼性は、モデル更新やプロンプトリビジョンによって振る舞いを漂うことができる生成AIシステムにとって、依然として課題である。汎用ユースケースの回帰テストを実行する軽量で拡張可能なベンチマークであるGPR-benchを紹介する。 GPR-benchは8つのタスクカテゴリ(例えば、テキスト生成、コード生成、情報検索)をカバーするオープンでバイリンガル(英語と日本語)のデータセットと、各タスクカテゴリ(言語毎の80のテストケース)の10のシナリオと、"LLM-as-a-Judge"スコアと簡潔さを自動評価パイプラインとを結合する。最新の3つのモデルバージョン(gpt-4o-mini、o3-mini、o4-mini)と2つのプロンプト構成(デフォルトと簡潔な命令)が異質な品質を示している。以上の結果から,新しいモデルでは精度が向上するが,その差は比較的小さく,統計的に有意ではないことが示唆された。対照的に、簡潔な書き起こし命令は簡潔さ(+12.37 pp, Mann-Whitney U test: p < 0.001, effect size r = 0.2995)を大幅に向上させ、精度(-1.7 pp)を最小限に抑える。 MITライセンス下でリリースされたGPR-は、再現性監視を開始するための障壁を低くし、コミュニティ主導の拡張機能の基礎を提供すると同時に、急速に進化する言語モデルのためのベンチマーク設計に関する重要な考慮を提起する。

関連論文リスト

Predictive Analytics for Collaborators Answers, Code Quality, and Dropout on Stack Overflow [5.4414562674321765]
予測モデルの開発にStack Overflowを使用した以前の研究では、しばしば3-5モデルの限られたベンチマークや任意の選択方法が採用されていた。本研究は,ユーザが回答する可能性のある質問数,コード品質違反,ドロップアウト状況など,3つのタスクにまたがる21のアルゴリズムを評価した。
論文参考訳（メタデータ） (2025-06-23T06:23:12Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文参考訳（メタデータ） (2025-05-25T23:17:47Z)
Out of Style: RAG's Fragility to Linguistic Variation [29.59506089890902]
ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
論文参考訳（メタデータ） (2025-04-11T03:30:26Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。