論文の概要: GRAFITE: Generative Regression Analysis Framework for Issue Tracking and Evaluation
- arxiv url: http://arxiv.org/abs/2603.18173v1
- Date: Wed, 18 Mar 2026 18:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.794647
- Title: GRAFITE: Generative Regression Analysis Framework for Issue Tracking and Evaluation
- Title(参考訳): GRAFITE:課題追跡と評価のための生成回帰分析フレームワーク
- Authors: Ja Young Lee, Mírian Silva, Mohamed Nasr, Shonda Witherspoon, Enzo Bozzani, Veronique Demers, Radha Ratnaparkhi, Hui Wu, Sara Rosenthal,
- Abstract要約: 大きな言語モデル(LLM)は、リリース時に人気のあるトピックやベンチマークのパフォーマンスによって大きく動機付けられている。
時間の経過とともに、トレーニング中にベンチマークデータが著しく露出するため、汚染が発生する。
本稿では,モデル問題を維持し,評価するための総合システムを通じて,連続LLM評価プラットフォームであるGRAFITEを提案する。
- 参考スコア(独自算出の注目度): 4.874843513834051
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are largely motivated by their performance on popular topics and benchmarks at the time of their release. However, over time, contamination occurs due to significant exposure of benchmark data during training. This poses a risk of model performance inflation if testing is not carefully executed. To address this challenge, we present GRAFITE, a continuous LLM evaluation platform through a comprehensive system for maintaining and evaluating model issues. Our approach enables building a repository of model problems based on user feedback over time and offers a pipeline for assessing LLMs against these issues through quality assurance (QA) tests using LLM-as-a-judge. The platform enables side-by-side comparison of multiple models, facilitating regression detection across different releases. The platform is available at https://github.com/IBM/grafite. The demo video is available at www.youtube.com/watch?v=XFZyoleN56k.
- Abstract(参考訳): 大きな言語モデル(LLM)は、リリース時に人気のあるトピックやベンチマークのパフォーマンスによって大きく動機付けられている。
しかし、時間の経過とともに、トレーニング中にベンチマークデータが著しく露出するため、汚染が発生する。
これは、テストが慎重に実行されない場合、モデルパフォーマンスインフレーションのリスクを引き起こす。
この課題に対処するために,モデル問題を維持し,評価するための総合システムを通じて,連続LLM評価プラットフォームであるGRAFITEを提案する。
提案手法は,ユーザからのフィードバックに基づいてモデル問題のリポジトリを構築することを可能にし,LLM-as-a-judgeを用いた品質保証(QA)テストを通じて,これらの問題に対してLLMを評価するパイプラインを提供する。
このプラットフォームは、複数のモデルのサイドバイサイド比較を可能にし、異なるリリース間で回帰検出を容易にする。
プラットフォームはhttps://github.com/IBM/grafite.comから入手できる。
デモビデオはwww.youtube.com/watch?
v=XFZyoleN56k。
関連論文リスト
- Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。