論文の概要: RAL2M: Retrieval Augmented Learning-To-Match Against Hallucination in Compliance-Guaranteed Service Systems
- arxiv url: http://arxiv.org/abs/2601.02917v1
- Date: Tue, 06 Jan 2026 11:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.902855
- Title: RAL2M: Retrieval Augmented Learning-To-Match Against Hallucination in Compliance-Guaranteed Service Systems
- Title(参考訳): RAL2M:Retrieval Augmented Learning-to-Match against Hallucination in Compliance-Guaranteed Service Systems
- Authors: Mengze Hong, Di Jiang, Jiangtao Wen, Zhiyang Su, Yawen Li, Yanjie Sun, Guan Wang, Chen Jason Zhang,
- Abstract要約: 幻覚はLLM駆動型サービスシステムにおいて大きな関心事である。
本稿では,生成幻覚を排除した新しいフレームワークであるRetrieval-Augmented Learning-to-Match(RAL2M)を紹介する。
異種モデル能力を明示的にモデル化する問合せ適応型潜在アンサンブル戦略を提案する。
- 参考スコア(独自算出の注目度): 27.265291265022586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is a major concern in LLM-driven service systems, necessitating explicit knowledge grounding for compliance-guaranteed responses. In this paper, we introduce Retrieval-Augmented Learning-to-Match (RAL2M), a novel framework that eliminates generation hallucination by repositioning LLMs as query-response matching judges within a retrieval-based system, providing a robust alternative to purely generative approaches. To further mitigate judgment hallucination, we propose a query-adaptive latent ensemble strategy that explicitly models heterogeneous model competence and interdependencies among LLMs, deriving a calibrated consensus decision. Extensive experiments on large-scale benchmarks demonstrate that the proposed method effectively leverages the "wisdom of the crowd" and significantly outperforms strong baselines. Finally, we discuss best practices and promising directions for further exploiting latent representations in future work.
- Abstract(参考訳): 幻覚はLLM駆動型サービスシステムにおいて主要な関心事であり、コンプライアンス保証された応答に基礎を置く明示的な知識を必要とする。
本稿では,LLMをクエリ応答型マッチング判断器として検索ベースシステム内に配置することで,生成幻覚を排除し,純粋に生成的アプローチに代わる堅牢な代替手段を提供する新しいフレームワークであるRetrieval-Augmented Learning-to-Match(RAL2M)を紹介する。
判定幻覚をさらに緩和するために,LLM間の不均一なモデル能力と相互依存性を明示的にモデル化し,校正されたコンセンサス決定を導出するクエリ適応潜在アンサンブル戦略を提案する。
大規模なベンチマーク実験により、提案手法は「群集の知恵」を効果的に活用し、強いベースラインを著しく上回ることを示した。
最後に、今後の作業における潜伏表現をさらに活用するためのベストプラクティスと有望な方向性について論じる。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Augment or Not? A Comparative Study of Pure and Augmented Large Language Model Recommenders [17.552417918986958]
大規模言語モデル(LLM)は、より豊かな意味理解を可能にし、暗黙の世界知識を取り入れることで、推薦システムのための新しいパラダイムを導入している。
本稿では,既存のアプローチを分類する体系的な分類法を提案する。(1) LLMのみに依存した純粋LLMレコメンダ,(2)LLM以外の追加技術を統合して性能を向上させる拡張LLMレコメンダ,である。
論文 参考訳(メタデータ) (2025-05-29T03:50:24Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines [0.7373617024876725]
RAGXplainは、RAGのパフォーマンスを定量化し、これらの評価を明確な洞察に変換する評価フレームワークである。
したがって、RAGXplainは定量的評価と実用的な最適化を橋渡しし、ユーザーがAIシステムを理解し、信頼し、拡張することを可能にする。
論文 参考訳(メタデータ) (2025-05-18T17:25:34Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。