論文の概要: The 20 questions game to distinguish large language models
- arxiv url: http://arxiv.org/abs/2409.10338v1
- Date: Mon, 16 Sep 2024 14:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:10:41.926819
- Title: The 20 questions game to distinguish large language models
- Title(参考訳): 大規模言語モデルを区別する20の質問ゲーム
- Authors: Gurvan Richardeau, Erwan Le Merrer, Camilla Penzo, Gilles Tredan,
- Abstract要約: ブラックボックスの文脈に置かれる2つの大きな言語モデル(LLM)が同一かどうかを判定する手法を提案する。
問題を形式化し、まず既知のベンチマークデータセットからのランダムな質問の選択を用いてベースラインを確立する。
我々は,同じタスクに対して,半分の質問を用いて22個のLLMを識別できる2つの効果的な質問を導入する。
- 参考スコア(独自算出の注目度): 2.699900017799093
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In a parallel with the 20 questions game, we present a method to determine whether two large language models (LLMs), placed in a black-box context, are the same or not. The goal is to use a small set of (benign) binary questions, typically under 20. We formalize the problem and first establish a baseline using a random selection of questions from known benchmark datasets, achieving an accuracy of nearly 100% within 20 questions. After showing optimal bounds for this problem, we introduce two effective questioning heuristics able to discriminate 22 LLMs by using half as many questions for the same task. These methods offer significant advantages in terms of stealth and are thus of interest to auditors or copyright owners facing suspicions of model leaks.
- Abstract(参考訳): 20の質問ゲームと並行して,ブラックボックスに置かれる2つの大きな言語モデル(LLM)が同一か否かを判定する手法を提案する。
ゴールは、通常は20未満の小さな(良質な)バイナリな質問を使用することです。
問題を形式化し、まず、既知のベンチマークデータセットからランダムに選択した質問を用いてベースラインを確立し、20問以内の精度を約100%達成する。
この問題に対して最適な境界を示した後、同じタスクに対して半分の質問を用いて22個のLLMを識別できる2つの効果的な質問ヒューリスティックを導入する。
これらの手法はステルスという点で大きな利点をもたらし、モデル漏洩の疑いに直面している監査人や著作権所有者に利益をもたらす。
関連論文リスト
- Multi-Document Financial Question Answering using LLMs [0.5120567378386615]
複数文書の財務質問応答のための2つの新しい手法を提案する。
まず、セマンティックタグを使用するメソッドで、次にインデックスをクエリしてコンテキストを取得する(RAG_SEM)。
第2に,意味的タグ付けを用いた知識グラフ(KG_RAG)に基づく手法で,グラフデータベースから知識グラフのトリプルをコンテキストとして検索する。
論文 参考訳(メタデータ) (2024-11-08T21:03:54Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - CLAM: Selective Clarification for Ambiguous Questions with Large
Language Models [37.37606905433334]
我々は,現在の SotA モデルでは,不正確な質問を提示しても,ユーザに対して明確化を求めないことを示す。
CLAMは,まずモデルを用いて曖昧な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求める。
本研究では,新しいあいまいな質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-12-15T12:47:18Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Match$^2$: A Matching over Matching Model for Similar Question
Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。
類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。
自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。
従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文 参考訳(メタデータ) (2020-06-21T05:59:34Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。