論文の概要: Asking Again and Again: Exploring LLM Robustness to Repeated Questions
- arxiv url: http://arxiv.org/abs/2412.07923v1
- Date: Tue, 10 Dec 2024 21:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:00.724808
- Title: Asking Again and Again: Exploring LLM Robustness to Repeated Questions
- Title(参考訳): LLMのロバスト性を探る
- Authors: Sagi Shaier,
- Abstract要約: オープンブックとクローズドブックの両方の設定で,ChatGPTの性能評価を行った。
本研究は,本モデルが繰り返し質問に対する感度を示さないことを示し,この文脈における頑健さと一貫性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study examines whether large language models (LLMs), such as ChatGPT, specifically the latest GPT-4o-mini, exhibit sensitivity to repeated prompts and whether repeating a question can improve response accuracy. We hypothesize that reiterating a question within a single prompt might enhance the model's focus on key elements of the query. To test this, we evaluate ChatGPT's performance on a large sample of two reading comprehension datasets under both open-book and closed-book settings, varying the repetition of each question to 1, 3, or 5 times per prompt. Our findings indicate that the model does not demonstrate sensitivity to repeated questions, highlighting its robustness and consistency in this context.
- Abstract(参考訳): 本研究では,ChatGPT,特に最新のGPT-4o-miniのような大規模言語モデル(LLM)が繰り返しプロンプトに対する感受性を示し,質問を繰り返すことで応答精度が向上するかどうかを検討する。
一つのプロンプト内で質問を繰り返すことで、クエリのキー要素に対するモデルの焦点が強化されるのではないか、という仮説を立てる。
そこで我々はChatGPTの性能を,オープンブックとクローズドブック設定の2つの読解データセットの大規模なサンプルを用いて評価し,各質問の繰り返しを1回,3回,あるいは5回に変更した。
本研究は,本モデルが繰り返し質問に対する感度を示さないことを示し,この文脈における頑健さと一貫性を強調した。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Comparison of Large Language Models for Generating Contextually Relevant Questions [6.080820450677854]
GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。
その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
論文 参考訳(メタデータ) (2024-07-30T06:23:59Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Query Refinement Prompts for Closed-Book Long-Form Question Answering [21.776413623962515]
大規模言語モデル (LLM) は、質問への回答や長文生成においてよく機能することが示されている。
問合せにおける多面性を明確に表現することを促す問合せ改善プロンプトを定義した。
AsQA と AQuAMuSe の2つの長文質問応答データセットに対する実験により,提案手法を用いることで,クローズド・ブック・セッティングにおける完全微調整モデルよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-31T17:44:42Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。