論文の概要: TempPerturb-Eval: On the Joint Effects of Internal Temperature and External Perturbations in RAG Robustness
- arxiv url: http://arxiv.org/abs/2512.01183v1
- Date: Mon, 01 Dec 2025 01:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.628443
- Title: TempPerturb-Eval: On the Joint Effects of Internal Temperature and External Perturbations in RAG Robustness
- Title(参考訳): TempPerturb-Eval:RAGロバストネスにおける内部温度と外部摂動の連関効果について
- Authors: Yongxin Zhou, Philippe Mulhem, Didier Schwab,
- Abstract要約: 本研究は,複数のLLM動作におけるテキスト摂動と温度設定との相互作用について,系統的研究を行った。
本稿では,様々な温度設定の異なる3種類の摂動タイプに文書を検索する総合的なRAG摂動温度解析フレームワークを提案する。
本研究は,(1)RAGロバスト性評価のための診断ベンチマーク,(2)摂動-温度相互作用の定量化のための分析フレームワーク,(3)ノイズのある検索条件下でのモデル選択とパラメータチューニングの実践的ガイドラインの3つの重要な貢献をもたらす。
- 参考スコア(独自算出の注目度): 3.796841688047966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evaluation of Retrieval-Augmented Generation (RAG) systems typically examines retrieval quality and generation parameters like temperature in isolation, overlooking their interaction. This work presents a systematic investigation of how text perturbations (simulating noisy retrieval) interact with temperature settings across multiple LLM runs. We propose a comprehensive RAG Perturbation-Temperature Analysis Framework that subjects retrieved documents to three distinct perturbation types across varying temperature settings. Through extensive experiments on HotpotQA with both open-source and proprietary LLMs, we demonstrate that performance degradation follows distinct patterns: high-temperature settings consistently amplify vulnerability to perturbations, while certain perturbation types exhibit non-linear sensitivity across the temperature range. Our work yields three key contributions: (1) a diagnostic benchmark for assessing RAG robustness, (2) an analytical framework for quantifying perturbation-temperature interactions, and (3) practical guidelines for model selection and parameter tuning under noisy retrieval conditions.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)システムの評価は、通常、その相互作用を見越して、分離した温度のような検索品質と生成パラメータを調査する。
本研究は,複数のLDMをまたいだ温度設定とテキスト摂動(ノイズ検索のシミュレーション)がどのように相互作用するかを系統的に検討する。
本稿では,様々な温度設定の異なる3種類の摂動タイプに文書を検索する総合的なRAG摂動温度解析フレームワークを提案する。
本研究では,HotpotQAをオープンソースかつプロプライエタリなLLMで行った広範な実験を通じて,性能劣化は異なるパターンに従うことを示した。
本研究は,(1)RAGロバスト性評価のための診断ベンチマーク,(2)摂動-温度相互作用の定量化のための分析フレームワーク,(3)ノイズのある検索条件下でのモデル選択とパラメータチューニングの実践的ガイドラインの3つの重要な貢献をもたらす。
関連論文リスト
- Temperature in SLMs: Impact on Incident Categorization in On-Premises Environments [0.0]
ローカルに実行されたSLMがこの課題に対処できるかどうかを検討する。
その結果、温度は性能にはほとんど影響を与えず、パラメータの数とGPU容量は決定的な要因であることがわかった。
論文 参考訳(メタデータ) (2025-11-21T19:37:09Z) - Exploring the Impact of Temperature on Large Language Models:Hot or Cold? [9.70280446429164]
我々は,0から2の範囲の温度が6つの異なる能力を評価するために設計されたデータセットに与える影響を評価する。
本研究は,最適温度選択の複雑さを浮き彫りにして,温度がモデル性能に与える影響を明らかにする。
本稿では,これらの観測効果を利用して,所定のプロンプトの最適温度を推定するBERTに基づく温度セレクタを提案する。
論文 参考訳(メタデータ) (2025-06-08T21:36:26Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Open-set Anomaly Segmentation in Complex Scenarios [88.11076112792992]
本稿では,複雑なシナリオにおけるオープンセット異常セグメンテーションのベンチマークであるComsAmyを紹介する。
ComsAmyは、幅広い悪天候、動的な運転環境、様々な異常タイプを含む。
本稿では,エネルギーとエントロピーの相補的情報を統合する新しいエネルギ-エントロピー学習(EEL)戦略を提案する。
論文 参考訳(メタデータ) (2025-04-28T12:00:10Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Dynamically Scaled Temperature in Self-Supervised Contrastive Learning [11.133502139934437]
本稿では,コサインの類似性に依存した温度スケーリング機能を提案することで,自己教師型学習におけるInfoNCE損失の性能向上に着目する。
実験的な証拠は、提案フレームワークが損失ベースのSSLアルゴリズムよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-02T13:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。