Fugu-MT 論文翻訳(概要): Towards Contamination Resistant Benchmarks

論文の概要: Towards Contamination Resistant Benchmarks

arxiv url: http://arxiv.org/abs/2505.08389v1
Date: Tue, 13 May 2025 09:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.507615
Title: Towards Contamination Resistant Benchmarks
Title（参考訳）: 汚染耐性ベンチマークに向けて
Authors: Rahmatullah Musawi, Sheng Lu,
Abstract要約: 大規模言語モデル(LLM)を適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。汚染は評価の信頼性を損なう重要な問題です本稿では, カエサル暗号に基づくベンチマーク(例えば, シフトが 1 のとき "ab" から "bc" など)を提案する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid development of large language models (LLMs) has transformed the landscape of natural language processing. Evaluating LLMs properly is crucial for understanding their potential and addressing concerns such as safety. However, LLM evaluation is confronted by various factors, among which contamination stands out as a key issue that undermines the reliability of evaluations. In this work, we introduce the concept of contamination resistance to address this challenge. We propose a benchmark based on Caesar ciphers (e.g., "ab" to "bc" when the shift is 1), which, despite its simplicity, is an excellent example of a contamination resistant benchmark. We test this benchmark on widely used LLMs under various settings, and we find that these models struggle with this benchmark when contamination is controlled. Our findings reveal issues in current LLMs and raise important questions regarding their true capabilities. Our work contributes to the development of contamination resistant benchmarks, enabling more rigorous LLM evaluation and offering insights into the true capabilities and limitations of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な発展により、自然言語処理の展望が変化した。 LLMを適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。しかし, LLM の評価は, 汚染が評価の信頼性を損なう重要な問題であるとして, 様々な要因に直面している。本稿では,この課題に対処するために,汚染耐性の概念を紹介する。本稿では, カエサル暗号に基づくベンチマーク(例えば, ab から bc へのシフト)を提案し, 単純性にもかかわらず, 汚染耐性ベンチマークの優れた例である。このベンチマークは, 様々な環境下で広く使用されているLCMでテストし, 汚染の制御に苦慮していることがわかった。本研究は,現在のLCMの問題点を明らかにするとともに,その真の能力に関する重要な疑問を提起するものである。我々の研究は汚染耐性ベンチマークの開発に寄与し、より厳密なLCM評価を可能にし、LSMの真の性能と限界に関する洞察を提供する。

関連論文リスト

Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-12-17T03:37:31Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文参考訳（メタデータ） (2024-06-12T12:54:27Z)
PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations [22.011216436252845]
本稿では,大言語モデルの知識能力を探索するツールキットPertEvalを紹介する。 PertEvalは、静的ベンチマークからオンザフライテストサンプルを生成するために、人間のような再配置技術を採用している。我々の発見は、より堅牢で真に理解できるLSMを前進させる洞察を与えてくれる。
論文参考訳（メタデータ） (2024-05-30T06:38:32Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文参考訳（メタデータ） (2024-02-21T18:55:20Z)
LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。 LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。しかし、この評価手法の堅牢性に関する懸念は続いている。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。