論文の概要: HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents
- arxiv url: http://arxiv.org/abs/2604.17284v1
- Date: Sun, 19 Apr 2026 06:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.436078
- Title: HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents
- Title(参考訳): HalluClear: GUIエージェントにおける幻覚の診断、評価、緩和
- Authors: Chao Jin, Wenkui Yang, Hao Sun, Yuqi Liao, Qianyi Jiang, Kai Zhou, Jie Cao, Ran He, Huaibo Huang,
- Abstract要約: 本稿ではGUIエージェントの幻覚軽減のための総合的なスイートであるHaluClearを紹介する。
HalluClear は,(1) 経験的失敗分析から派生した GUI 固有の幻覚分類,(2) VLM-as-a-judge の信頼性を高める3段階評価ワークフロー,(3) 閉ループ構造推論に基づく緩和スキームから構成される。
- 参考スコア(独自算出の注目度): 41.34549343742617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While progress in GUI agents has been largely driven by industrial-scale training, ungrounded hallucinations often trigger cascading failures in real-world deployments.Unlike general VLM domains, the GUI agent field lacks a hallucination-focused suite for fine-grained diagnosis, reliable evaluation, and targeted mitigation.To bridge this gap, we introduce HalluClear, a comprehensive suite for hallucination mitigation in GUI agents as a complement to computation-intensive scaling. HalluClear comprises: (1) a GUI-specific hallucination taxonomy derived from empirical failure analysis; (2) a calibrated three-stage evaluation workflow which enhances VLM-as-a-judge reliability via expert-annotated benchmarking and ensemble credibility estimation; and (3) a mitigation scheme based on closed-loop structured reasoning, enabling lightweight continual post-training with cold-start initialization for both generalist and GUI-specialist agents. Experiments across representative agents and public benchmarks demonstrate that post-training on only 9K samples within our suite can significantly reduce hallucinations, thereby improving grounding and action fidelity, offering a compute-efficient pathway to robust GUI automation.
- Abstract(参考訳): 一般のVLMドメインとは異なり、GUIエージェントフィールドには、微粒な診断、信頼性評価、ターゲット緩和のための幻覚に焦点を当てたスイートがなく、このギャップを埋めるために、GUIエージェントの幻覚緩和のための総合的なスイートであるHaluClearを導入する。
HalluClearは,(1)経験的失敗分析から派生したGUI固有の幻覚分類,(2)専門家によるベンチマークとアンサンブルの信頼性評価によるVLM-as-a-judge信頼性を高める3段階評価ワークフロー,(3)閉ループ構造推論に基づく緩和スキーム,(3)一般エージェントとGUI-スペシャリストエージェントの冷間開始初期化による軽量なポストトレーニングを可能にする。
代表エージェントと公開ベンチマークによる実験では、スイート内の9Kサンプルのみのポストトレーニングが幻覚を著しく低減し、接地とアクションの忠実さを改善し、堅牢なGUI自動化のための計算効率の高いパスを提供する。
関連論文リスト
- Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation [86.37623966653688]
大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおいて幻覚を起こす傾向にある。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるため、トレーニングフリーな手法はこの問題に対して安価で柔軟な解決策を提供する。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
論文 参考訳(メタデータ) (2026-03-17T15:30:47Z) - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T07:36:54Z) - Detecting Hallucinations in Retrieval-Augmented Generation via Semantic-level Internal Reasoning Graph [12.233570103035312]
そこで本研究では,忠実な幻覚を検出するための意味レベルの内部推論グラフに基づく手法を提案する。
RAGTruth と Dolly-15k の最先端ベースラインと比較して総合的な性能が向上する。
論文 参考訳(メタデータ) (2026-01-06T14:35:20Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - A Head to Predict and a Head to Question: Pre-trained Uncertainty Quantification Heads for Hallucination Detection in LLM Outputs [71.97006967209539]
大規模言語モデル(LLM)は幻覚、すなわち、散発的に偽情報や偽情報を生成する傾向を持つ。
不確実性定量化(UQ)は、モデル出力の信頼性を評価するためのフレームワークを提供する。
我々は、Mistral、Llama、Gemma 2など、人気のあるLLMシリーズ向けのUQヘッドのコレクションを事前訓練する。
論文 参考訳(メタデータ) (2025-05-13T03:30:26Z) - Osiris: A Lightweight Open-Source Hallucination Detection System [30.63248848082757]
幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。
幻覚を誘発したマルチホップQAデータセットを提案する。
RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
論文 参考訳(メタデータ) (2025-05-07T22:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。