論文の概要: SGIC: A Self-Guided Iterative Calibration Framework for RAG
- arxiv url: http://arxiv.org/abs/2506.16172v1
- Date: Thu, 19 Jun 2025 09:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.019241
- Title: SGIC: A Self-Guided Iterative Calibration Framework for RAG
- Title(参考訳): SGIC: RAGのための自己ガイド型反復校正フレームワーク
- Authors: Guanhua Chen, Yutong Yao, Lidia S. Chao, Xuebo Liu, Derek F. Wong,
- Abstract要約: 大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。
ツールとして不確実性スコアを用いる新しいフレームワークを提案する。
また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
- 参考スコア(独自算出の注目度): 45.17496149653415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in retrieval-augmented generation (RAG) has concentrated on retrieving useful information from candidate documents. However, numerous methodologies frequently neglect the calibration capabilities of large language models (LLMs), which capitalize on their robust in-context reasoning prowess. This work illustrates that providing LLMs with specific cues substantially improves their calibration efficacy, especially in multi-round calibrations. We present a new SGIC: Self-Guided Iterative Calibration Framework that employs uncertainty scores as a tool. Initially, this framework calculates uncertainty scores to determine both the relevance of each document to the query and the confidence level in the responses produced by the LLMs. Subsequently, it reevaluates these scores iteratively, amalgamating them with prior responses to refine calibration. Furthermore, we introduce an innovative approach for constructing an iterative self-calibration training set, which optimizes LLMs to efficiently harness uncertainty scores for capturing critical information and enhancing response accuracy. Our proposed framework significantly improves performance on both closed-source and open-weight LLMs.
- Abstract(参考訳): 検索強化世代(RAG)の最近の研究は、候補文書から有用な情報を取得することに集中している。
しかし、多くの方法論は大規模言語モデル(LLM)の校正能力をしばしば無視し、その頑健な文脈内推論の長所を生かしている。
この研究は、特に多ラウンドキャリブレーションにおけるLCMの校正効率が著しく向上することを示している。
ツールとして不確実性スコアを利用するSGIC: Self-Guided Iterative Calibration Frameworkを提案する。
当初、このフレームワークは不確実性スコアを算出し、各文書のクエリとの関連性とLCMが生成した応答の信頼度を判定する。
その後、これらのスコアを反復的に再評価し、それらを事前の応答でアマルゲイトしてキャリブレーションを洗練させる。
さらに,LLMを最適化した反復型自己校正学習セットを構築するための革新的なアプローチを導入し,重要情報の取得や応答精度の向上に不確実性スコアを効果的に活用する。
提案するフレームワークは,オープンソース LLM とオープンソース LLM の両方の性能を著しく向上させる。
関連論文リスト
- Towards Objective Fine-tuning: How LLMs' Prior Knowledge Causes Potential Poor Calibration? [19.38577744626441]
大規模言語モデル(LLM)は、信頼度スコアが実際のパフォーマンスと不一致であるようなキャリブレーションが低いことを示すことが多い。
我々の研究は、LLMの事前の知識が、実世界の微調整において既知のデータがユビキタスに存在するため、キャリブレーションの可能性が低いことを明らかにしている。
モデルの事前知識に基づいて,対象とする学習戦略を適用する認知認識フレームワークであるCogCalibを提案する。
論文 参考訳(メタデータ) (2025-05-27T08:51:31Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation [18.815226646364476]
大規模言語モデル(LLM)の既存のキャリブレーション手法は、「集団知恵」を最大限に活用することなく、個人の信頼度を推定または引き出すことに重点を置いている。
我々は,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborativeを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:40:43Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。