論文の概要: Can a Small Model Learn to Look Before It Leaps? Dynamic Learning and Proactive Correction for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2511.05854v1
- Date: Sat, 08 Nov 2025 05:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.619737
- Title: Can a Small Model Learn to Look Before It Leaps? Dynamic Learning and Proactive Correction for Hallucination Detection
- Title(参考訳): 小型モデルでは先見学習は可能か? : 幻覚検出のための動的学習と前向き補正
- Authors: Zepeng Bao, Shen Zhou, Qiankun Pi, Jianhao Chen, Mayi Xu, Ming Zhong, Yuanyuan Zhu, Tieyun Qian,
- Abstract要約: 大きな言語モデル(LLM)における幻覚は、安全なデプロイメントにとって重要な障壁である。
本研究では,動的学習と積極的修正機能を備えた効率的な学生モデルを実現する,LEAPフレームワークの革新的評価と適応計画(LEAP)フレームワークを提案する。
LEAPをチューニングしたモデルが既存の最先端の手法よりも優れているという3つの挑戦的なベンチマークの実験を通じて実証する。
- 参考スコア(独自算出の注目度): 23.54893404967841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination in large language models (LLMs) remains a critical barrier to their safe deployment. Existing tool-augmented hallucination detection methods require pre-defined fixed verification strategies, which are crucial to the quality and effectiveness of tool calls. Some methods directly employ powerful closed-source LLMs such as GPT-4 as detectors, which are effective but too costly. To mitigate the cost issue, some methods adopt the teacher-student architecture and finetune open-source small models as detectors via agent tuning. However, these methods are limited by fixed strategies. When faced with a dynamically changing execution environment, they may lack adaptability and inappropriately call tools, ultimately leading to detection failure. To address the problem of insufficient strategy adaptability, we propose the innovative ``Learning to Evaluate and Adaptively Plan''(LEAP) framework, which endows an efficient student model with the dynamic learning and proactive correction capabilities of the teacher model. Specifically, our method formulates the hallucination detection problem as a dynamic strategy learning problem. We first employ a teacher model to generate trajectories within the dynamic learning loop and dynamically adjust the strategy based on execution failures. We then distill this dynamic planning capability into an efficient student model via agent tuning. Finally, during strategy execution, the student model adopts a proactive correction mechanism, enabling it to propose, review, and optimize its own verification strategies before execution. We demonstrate through experiments on three challenging benchmarks that our LEAP-tuned model outperforms existing state-of-the-art methods.
- Abstract(参考訳): 大きな言語モデル(LLM)における幻覚は、安全なデプロイメントにとって重要な障壁である。
既存のツール拡張幻覚検出手法では,ツールコールの品質と有効性に不可欠な,事前に定義された検証戦略が必要である。
いくつかの手法では、GPT-4 などの強力な閉ソース LLM を検出器として直接使用するが、効率は良いがコストがかかりすぎる。
コスト問題を緩和するため、いくつかの手法では教師/学生のアーキテクチャを採用し、エージェントチューニングによる小さなモデルを検出器として微調整する。
しかし、これらの手法は固定戦略によって制限される。
動的に変化する実行環境に直面していると、適応性が欠如し、不適切な呼び出しツールがあり、最終的にエラーの検出につながる可能性がある。
戦略適応性に欠ける問題に対処するために,教師モデルの動的学習と積極的修正能力を備えた効率的な学生モデルを提供する,革新的な「LEAP(Learning to Evaluate and Adaptively Plan')」フレームワークを提案する。
具体的には,幻覚検出問題を動的戦略学習問題として定式化する。
まず、教師モデルを用いて、動的学習ループ内で軌道を生成し、実行障害に基づいて戦略を動的に調整する。
次に,この動的計画能力をエージェントチューニングによる効率的な学生モデルに抽出する。
最後に、戦略実行中に、学生モデルはプロアクティブな修正メカニズムを採用し、実行前に独自の検証戦略を提案し、レビューし、最適化することができる。
LEAPをチューニングしたモデルが既存の最先端の手法よりも優れているという3つの挑戦的なベンチマークの実験を通じて実証する。
関連論文リスト
- Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - AdaWM: Adaptive World Model based Planning for Autonomous Driving [34.57859869929471]
世界モデルに基づく強化学習(RL)が自律運転の有望なアプローチとして登場した。
プレトレイン-ファイントゥンパラダイムは、オンラインRLが事前訓練されたモデルによってパフォーマンスされ、オフラインで学習されるポリシーで使用されることが多い。
本稿では,アダプティブ・ワールド・モデルに基づく計画手法であるAdaWMを紹介する。(a)ミスマッチを定量化し,微調整戦略を通知するミスマッチ識別と,(b)ポリシーやモデルを必要に応じて選択的に更新するアライメント駆動微調整である。
論文 参考訳(メタデータ) (2025-01-22T18:34:51Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。