論文の概要: Asking Again and Again: Exploring LLM Robustness to Repeated Questions
- arxiv url: http://arxiv.org/abs/2412.07923v3
- Date: Wed, 12 Mar 2025 13:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:18.594696
- Title: Asking Again and Again: Exploring LLM Robustness to Repeated Questions
- Title(参考訳): LLMのロバスト性を探る
- Authors: Sagi Shaier, Mario Sanz-Guerrero, Katharina von der Wense,
- Abstract要約: 我々は,最近の5つの大言語モデル (LLM) を理解データセットの読解において評価した。
以上の結果から,モデルの精度を最大で6%向上する可能性が示唆された。
すべてのモデル、設定、データセットにまたがって、統計的に重要な結果が見つからない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates whether repeating questions within prompts influences the performance of large language models (LLMs). We hypothesize that reiterating a question within a single prompt might enhance the model's focus on key elements of the query. We evaluate five recent LLMs -- including GPT-4o-mini, DeepSeek-V3, and smaller open-source models -- on three reading comprehension datasets under different prompt settings, varying question repetition levels (1, 3, or 5 times per prompt). Our results demonstrate that question repetition can increase models' accuracy by up to $6\%$. However, across all models, settings, and datasets, we do not find the result statistically significant. These findings provide insights into prompt design and LLM behavior, suggesting that repetition alone does not significantly impact output quality.
- Abstract(参考訳): 本研究では,繰り返し質問が大規模言語モデル(LLM)の性能に影響を及ぼすかどうかを検討する。
一つのプロンプト内で質問を繰り返すことで、クエリのキー要素に対するモデルの焦点が強化されるのではないか、という仮説を立てる。
GPT-4o-mini、DeepSeek-V3、およびより小さなオープンソースモデルを含む5つの最近のLCMを、異なるプロンプト設定下での3つの読み取り理解データセット、異なる質問繰り返しレベル(1, 3, 5倍)で評価した。
以上の結果から,質問の繰り返しはモデルの精度を最大6.5%向上させる可能性が示唆された。
しかしながら、すべてのモデル、設定、データセットにおいて、統計的に有意な結果が得られていない。
これらの結果は、迅速な設計とLCMの挙動に関する洞察を与え、反復のみが出力品質に悪影響を及ぼさないことを示唆している。
関連論文リスト
- ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Comparison of Large Language Models for Generating Contextually Relevant Questions [6.080820450677854]
GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。
その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
論文 参考訳(メタデータ) (2024-07-30T06:23:59Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Query Refinement Prompts for Closed-Book Long-Form Question Answering [21.776413623962515]
大規模言語モデル (LLM) は、質問への回答や長文生成においてよく機能することが示されている。
問合せにおける多面性を明確に表現することを促す問合せ改善プロンプトを定義した。
AsQA と AQuAMuSe の2つの長文質問応答データセットに対する実験により,提案手法を用いることで,クローズド・ブック・セッティングにおける完全微調整モデルよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-31T17:44:42Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。