論文の概要: Testing for LLM response differences: the case of a composite null consisting of semantically irrelevant query perturbations
- arxiv url: http://arxiv.org/abs/2509.10963v1
- Date: Sat, 13 Sep 2025 19:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.855999
- Title: Testing for LLM response differences: the case of a composite null consisting of semantically irrelevant query perturbations
- Title(参考訳): LLM応答差の検証:意味的に無関係な問合せ摂動からなる合成ヌルの場合
- Authors: Aranyak Acharyya, Carey E. Priebe, Hayden S. Helm,
- Abstract要約: 入力クエリが2つある場合、応答分布が同じかどうかを問うのは自然である。
従来の等式テストは、2つの意味論的等価なクエリが統計的に異なる応答分布を誘導することを示しているかもしれない。
本稿では, セマンティックに類似したクエリの集合をテスト手順に組み込むことで, このミスアライメントに対処する。
- 参考スコア(独自算出の注目度): 10.216191904121178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an input query, generative models such as large language models produce a random response drawn from a response distribution. Given two input queries, it is natural to ask if their response distributions are the same. While traditional statistical hypothesis testing is designed to address this question, the response distribution induced by an input query is often sensitive to semantically irrelevant perturbations to the query, so much so that a traditional test of equality might indicate that two semantically equivalent queries induce statistically different response distributions. As a result, the outcome of the statistical test may not align with the user's requirements. In this paper, we address this misalignment by incorporating into the testing procedure consideration of a collection of semantically similar queries. In our setting, the mapping from the collection of user-defined semantically similar queries to the corresponding collection of response distributions is not known a priori and must be estimated, with a fixed budget. Although the problem we address is quite general, we focus our analysis on the setting where the responses are binary, show that the proposed test is asymptotically valid and consistent, and discuss important practical considerations with respect to power and computation.
- Abstract(参考訳): 入力クエリが与えられた場合、大きな言語モデルのような生成モデルは、応答分布から引き出されたランダム応答を生成する。
入力クエリが2つある場合、応答分布が同じかどうかを問うのは自然である。
従来の統計的仮説テストはこの問題に対処するために設計されているが、入力クエリによって誘導される応答分布は、クエリに対する意味論的に無関係な摂動に敏感であるため、2つの意味論的等価なクエリが統計的に異なる応答分布を誘導することを示している。
その結果、統計検査の結果はユーザーの要求と一致しない可能性がある。
本稿では, セマンティックに類似したクエリの集合をテスト手順に組み込むことにより, このミスアライメントに対処する。
我々の設定では、ユーザ定義のセマンティックな類似クエリの集合から対応する応答分布の集合へのマッピングは事前に知られておらず、固定予算で見積もらなければならない。
この問題は非常に一般的なものであるが、我々は応答がバイナリな設定に焦点を合わせ、提案したテストが漸近的に有効で一貫性があることを示し、電力と計算に関して重要な実践的考察を議論する。
関連論文リスト
- Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses [7.581259361859477]
不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
論文 参考訳(メタデータ) (2024-12-20T09:02:26Z) - Contextualized Evaluations: Judging Language Model Responses to Underspecified Queries [85.81295563405433]
本稿では,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中にそれを提供するプロトコルを提案する。
その結果,1) 評価から得られた結論の変更,2) モデルペア間のベンチマークランキングの反転,2) スタイルのような表面レベルの基準に基づいて判断を下すナッジ評価,3) 多様なコンテキスト間でのモデル行動に関する新たな洞察の提供,などが確認できた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks [2.1899189033259305]
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
論文 参考訳(メタデータ) (2024-04-25T18:35:54Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Selecting Query-bag as Pseudo Relevance Feedback for Information-seeking Conversations [76.70349332096693]
情報検索対話システムは電子商取引システムで広く利用されている。
クエリバッグに基づくPseudo Relevance Feedback framework(QB-PRF)を提案する。
関連クエリを備えたクエリバッグを構築し、擬似シグナルとして機能し、情報検索の会話をガイドする。
論文 参考訳(メタデータ) (2024-03-22T08:10:32Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。