論文の概要: Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework
- arxiv url: http://arxiv.org/abs/2505.03563v2
- Date: Wed, 21 May 2025 20:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.779462
- Title: Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework
- Title(参考訳): 別の言い方: LLMをユーザ中心のパラメタフレームワークで監査する
- Authors: Cléa Chataigner, Rebecca Ma, Prakhar Ganesh, Afaf Taïk, Elliot Creager, Golnoosh Farnadi,
- Abstract要約: 本稿では,言語構造とユーザ人口統計に基づく,制御された現実的なプロンプトフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。
この結果から,大規模言語モデルにおいて,より代表的で構造化されたアプローチの必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 9.162876771766513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are sensitive to subtle changes in prompt phrasing, complicating efforts to audit them reliably. Prior approaches often rely on arbitrary or ungrounded prompt variations, which may miss key linguistic and demographic factors in real-world usage. We introduce AUGMENT (Automated User-Grounded Modeling and Evaluation of Natural Language Transformations), a framework for systematically generating and evaluating controlled, realistic prompt paraphrases based on linguistic structure and user demographics. AUGMENT ensures paraphrase quality through a combination of semantic, stylistic, and instruction-following criteria. In a case study on the BBQ dataset, we show that user-grounded paraphrasing leads to significant shifts in LLM performance and bias metrics across nine models. Our findings highlight the need for more representative and structured approaches to prompt variation in LLM auditing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アクシデントフレーズの微妙な変更に敏感であり、それらを確実に監査する努力を複雑にしている。
以前のアプローチは、しばしば任意のまたは未定のプロンプトのバリエーションに依存しており、実際の使用において重要な言語的要因や人口統計学的要因を見逃す可能性がある。
AUGMENT(Automated User-Grounded Modeling and Evaluation of Natural Language Transformations, AUGMENT)は、言語構造とユーザ人口統計に基づく、制御された現実的なプロンプトフレーズを体系的に生成・評価するフレームワークである。
AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。
BBQデータセットのケーススタディでは、ユーザグラウンドのパラフレーズが、9つのモデルでLLMのパフォーマンスとバイアスのメトリクスを大きく変化させることを示した。
以上の結果から, LLM監査における適応的, 構造的アプローチの必要性が示唆された。
関連論文リスト
- FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [21.850854237079595]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのタスクに依存しないフレームワークである。
FLUKEの実用性は、4つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - What's the Difference? Supporting Users in Identifying the Effects of Prompt and Model Changes Through Token Patterns [23.505782809734512]
Spotlightは、自動化と人間の分析を組み合わせた新しいアプローチだ。
データマイニング技術に基づいて、ランダムな(復号化)バリエーションと言語モデル出力の体系的な違いを自動的に区別する。
トークンパターンのアプローチは,言語モデル出力の体系的差異を理解する上で有効であることを示す。
論文 参考訳(メタデータ) (2025-04-22T11:53:33Z) - You've Changed: Detecting Modification of Black-Box Large Language Models [4.7541096609711]
大規模言語モデル(LLM)はAPIを通じてサービスとして提供されることが多いため、開発者は振る舞いの変化を検出することが難しい。
生成したテキストの言語的特徴と心理言語学的特徴の分布を比較することで,変化に対するLLMの監視手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T04:16:43Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。