Fugu-MT 論文翻訳(概要): ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions

論文の概要: ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions

arxiv url: http://arxiv.org/abs/2410.14567v3
Date: Tue, 08 Apr 2025 22:24:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-10 16:25:04.026316
Title: ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions
Title（参考訳）: ELOQ:スコープ外質問のLCM検出を支援するリソース
Authors: Zhiyuan Peng, Jinming Nian, Alexandre Evfimievski, Yi Fang,
Abstract要約: 大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
参考スコア（独自算出の注目度）: 52.33835101586687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are widely used in Conversational AI systems to generate responses to user inquiries. However, many natural questions lack well-defined answers. While existing studies primarily focus on question types such as false premises, they often overlook out-of-scope questions, where the provided document is semantically highly similar to the query but does not contain the required answer. In this paper, we propose a guided hallucination-based method to efficiently generate a diverse set of out-of-scope questions from a given document corpus. We then evaluate multiple LLMs based on their effectiveness in confusion detection and appropriate response generation. Furthermore, we introduce an improved method for detecting such out-of-scope questions, enhancing the reliability of LLM-based question-answering systems.
Abstract（参考訳）: 大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。しかし、多くの自然問題には明確な答えがない。既存の研究では、主に偽の前提のような質問タイプに焦点を当てているが、提供された文書がクエリと意味的に非常によく似ているが、必要な回答は含まない、スコープ外質問をしばしば見落としている。本稿では,文書コーパスから多様なスコープ外質問を効率よく生成する誘導幻覚に基づく手法を提案する。次に、混乱検出と適切な応答生成の有効性に基づき、複数のLCMを評価した。さらに,LCMに基づく質問応答システムの信頼性を向上し,スコープ外質問を検出するための改良手法を提案する。

関連論文リスト

AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
GenSco: Can Question Decomposition based Passage Alignment improve Question Answering? [1.5776201492893507]
ジェンスコ(GenSco)は,マルチホップ質問の予測分解に基づく経路選択手法である。広範に確立された3つのマルチホップ質問応答データセットについて評価した。
論文参考訳（メタデータ） (2024-07-14T15:25:08Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文参考訳（メタデータ） (2024-07-01T15:53:29Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。 LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文参考訳（メタデータ） (2024-06-03T01:32:52Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:56:59Z)
CuriousLLM: Elevating Multi-Document Question Answering with LLM-Enhanced Knowledge Graph Reasoning [0.9295048974480845]
我々は、好奇心駆動推論機構をLLMエージェントに統合する拡張であるCuriousLLMを提案する。この機構により、エージェントは関連するフォローアップ質問を生成し、情報検索プロセスをより効率的に導くことができる。実験の結果,CuriousLLMは多文書質問応答(MD-QA)におけるLLM性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-04-13T20:43:46Z)
CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。 RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-04T02:58:21Z)
Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-ofDiscussionフレームワークを提案する。実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-26T05:31:34Z)
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers [21.814007454504978]
本稿では,複数粒度回答の集合に対する精度と情報性の観点から,予測された回答を評価できる新しい評価手法を提案する。実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤解となるような特定の解を生成する傾向が示された。多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質はさらに増加する。
論文参考訳（メタデータ） (2024-01-09T17:44:36Z)
Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文参考訳（メタデータ） (2023-11-02T07:20:49Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
An Empirical Comparison of LM-based Question and Answer Generation Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-26T14:59:53Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文参考訳（メタデータ） (2022-11-02T21:10:09Z)
Guided Transformer: Leveraging Multiple External Sources for Representation Learning in Conversational Search [36.64582291809485]
あいまいなクエリやフェースドクエリに対する質問を明確にすることは,様々な情報検索システムにおいて有用な手法として認識されている。本稿では,トランスフォーマーネットワークが学習した表現を,外部情報ソースからの新たなアテンション機構を用いて強化する。実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。
論文参考訳（メタデータ） (2020-06-13T03:24:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。