Fugu-MT 論文翻訳(概要): SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts

論文の概要: SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts

arxiv url: http://arxiv.org/abs/2412.00765v1
Date: Sun, 01 Dec 2024 10:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.171633
Title: SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts
Title（参考訳）: SelfPrompt: ドメイン制約付き知識ガイドラインと修正逆転プロンプトによるLLMロバストネスの自律的評価
Authors: Aihua Pei, Zehua Yang, Shunan Zhu, Ruoxi Cheng, Ju Jia,
Abstract要約: 本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
参考スコア（独自算出の注目度）: 0.6291443816903801
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional methods for evaluating the robustness of large language models (LLMs) often rely on standardized benchmarks, which can escalate costs and limit evaluations across varied domains. This paper introduces a novel framework designed to autonomously evaluate the robustness of LLMs by incorporating refined adversarial prompts and domain-constrained knowledge guidelines in the form of knowledge graphs. Our method systematically generates descriptive sentences from domain-constrained knowledge graph triplets to formulate adversarial prompts, enhancing the relevance and challenge of the evaluation. These prompts, generated by the LLM itself and tailored to evaluate its own robustness, undergo a rigorous filtering and refinement process, ensuring that only those with high textual fluency and semantic fidelity are used. This self-evaluation mechanism allows the LLM to evaluate its robustness without the need for external benchmarks. We assess the effectiveness of our framework through extensive testing on both proprietary models like ChatGPT and open-source models such as Llama-3.1, Phi-3, and Mistral. Results confirm that our approach not only reduces dependency on conventional data but also provides a targeted and efficient means of evaluating LLM robustness in constrained domains.
Abstract（参考訳）: 大規模言語モデル(LLM)のロバスト性を評価する従来の手法は、しばしば標準化されたベンチマークに頼っている。本稿では,LLMの強靭性評価を,知識グラフの形式に改良された対角的プロンプトとドメイン制約付き知識ガイドラインを組み込むことにより,自律的に評価する新しい枠組みを提案する。提案手法は,ドメイン制約付き知識グラフ三重項から記述文を体系的に生成し,敵対的プロンプトを定式化し,評価の妥当性と課題を高める。これらのプロンプトはLLM自身によって生成され、自分自身の堅牢性を評価するために調整され、厳密なフィルタリングと洗練プロセスが行われ、高いテキストの流布とセマンティックな忠実さを持つものだけが使用される。この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。我々は,ChatGPTやLlama-3.1,Phi-3,Mistralといったオープンソースモデルといったプロプライエタリモデルの広範なテストを通じて,フレームワークの有効性を評価する。その結果,本手法は従来のデータへの依存を減らすだけでなく,制約領域におけるLSMのロバスト性を評価するための目標かつ効率的な手段も提供することがわかった。

関連論文リスト

OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs [5.798411590796167]
本稿では,敵対的攻撃シナリオ下での大規模言語モデルの堅牢性を体系的に評価する枠組みを提案する。筆者らの枠組みは知識グラフの三つ子から独自のプロンプトを生成し,毒殺によって敵のプロンプトを生成する。 GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。
論文参考訳（メタデータ） (2024-06-16T04:48:43Z)
Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs [1.0878040851638]
本稿では,大規模言語モデル(LLM)の信頼性と理解を高めるための評価手法について検討する。主な評価指標は、パープレキシティ測定、NLPメトリクス(BLEU, ROUGE, METEOR, BERTScore, GLEU, Word Error Rate, character Error Rate), Zero-Shot and Few-Shot Learning Performance, Transfer Learning Evaluation, Adversarial Testing, Fairness and Bias Evaluationである。
論文参考訳（メタデータ） (2024-06-04T03:54:53Z)
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。 FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文参考訳（メタデータ） (2024-04-09T04:17:51Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。