論文の概要: Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment
- arxiv url: http://arxiv.org/abs/2605.14311v1
- Date: Thu, 14 May 2026 03:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.600052
- Title: Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment
- Title(参考訳): Beyond Binary: 継続的セマンティックアライメントとしてのGUI批判の緩和
- Authors: Yuchen Sun, Pei Fu, Shaojie Zhang, Anan Du, Xiuwen Xi, Ruoceng Zhang, Zhenbo Luo, Jian Luan, Chongyang Zhang,
- Abstract要約: テスト時間スケーリング(TTS)は、ジェネラリストGUIエージェントにとって有望なパラダイムとして登場した。
既存のGUI批評家モデルはバイナリ分類を統一的に採用している。
本稿では,機能等価仮説に基づくパラダイムシフトであるBBCriticを紹介する。
- 参考スコア(独自算出の注目度): 28.755187677540192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Scaling (TTS), which samples multiple candidate actions and ranks them via a Critic Model, has emerged as a promising paradigm for generalist GUI agents. Its efficacy thus hinges on the critic's fine-grained ranking ability. However, existing GUI critic models uniformly adopt binary classification. Our motivational analysis of these models exposes a severe entanglement: scores for valid actions and plausible-but-invalid distractors become indistinguishable. We attribute this failure to two structural defects: Affordance Collapse--the hierarchical affordance space is compressed into 0/1 labels; and Noise Sensitivity--binary objectives overfit to noisy decision boundaries. To resolve this, we introduce BBCritic (Beyond-Binary Critic), a paradigm shift grounded in the Functional Equivalence Hypothesis. Through two-stage contrastive learning, BBCritic aligns instructions and actions in a shared Affordance Space, recovering the hierarchical structure that binary supervision flattens. We also present BBBench (Beyond-Binary Bench), the first GUI critic benchmark that pairs a dense action space with a hierarchical four-level taxonomy, enabling fine-grained ranking evaluation. Experimental results show that BBCritic-3B, trained without any extra annotation, outperforms 7B-parameter SOTA binary models. It demonstrates strong zero-shot transferability across platforms and tasks, supporting our methodological view: GUI critique is fundamentally a metric-learning problem, not a classification one.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、複数の候補アクションをサンプリングし、批判モデルによってそれらをランク付けするものであり、ジェネラリストGUIエージェントにとって有望なパラダイムとして現れている。
そのため、その効果は批評家の微妙なランク付け能力に依存している。
しかし、既存のGUI批評家モデルはバイナリ分類を統一的に採用している。
これらのモデルのモチベーション分析は、有効な行動のスコアと、有意だが有意な気晴らしのスコアが区別できないという深刻な絡み合いを露呈する。
この故障は2つの構造的欠陥に起因している: Affordance Collapse - 階層的空き空間は0/1ラベルに圧縮され、ノイズ感度-2次目的はノイズの多い決定境界に過度に適合する。
これを解決するために,機能等価仮説に基づくパラダイムシフトであるBBCritic(Beyond-Binary Critic)を導入する。
2段階の対照的な学習を通じて、BBCriticは共有アフォードアンス空間における指示と行動を調整することで、二項監督がフラット化する階層構造を回復する。
BBBench(Beyond-Binary Bench)は、階層的な4段階の分類と高密度な行動空間を組み合わせ、きめ細かいランキング評価を可能にするGUI批判ベンチマークである。
BBCritic-3Bは追加のアノテーションなしで訓練され、7BパラメータSOTAバイナリモデルより優れていた。
プラットフォームやタスク間での強力なゼロショット転送可能性を示し、方法論的視点をサポートする: GUI批判は基本的にはメートル法学習の問題であり、分類問題ではない。
関連論文リスト
- When in Doubt, Deliberate: Confidence-Based Routing to Expert Debate for Sexism Detection [7.299050989302629]
我々は,(i)低表現,(ii)雑音,(iii)データおよびモデル予測における概念的あいまいさの複合効果に対処する枠組みを提案する。
提案手法では,タスク EXIST 2025 タスク 1.1 では F1 が +2.72% 改善され,EDOS A と B では +4.48% と +1.30% が得られた。
論文 参考訳(メタデータ) (2025-12-21T05:48:57Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Few-shot Class-incremental Fault Diagnosis by Preserving Class-Agnostic Knowledge with Dual-Granularity Representations [16.182587421358235]
FSC-FD(Few-Shot Class-Incremental Fault Diagnosis)は,実世界の産業システムにおいて重要である。
本稿では,Dual-Granularity Guidance Network(DGGN)と呼ばれる,Dual-Granularity Representationsに基づく新しいフレームワークを提案する。
提案したDGGNは最先端のFSC-FD手法と比較して診断性能と安定性に優れる。
論文 参考訳(メタデータ) (2025-08-16T03:14:07Z) - Weakly-Supervised Contrastive Learning for Imprecise Class Labels [50.57424331797865]
正対と負対を定義するために「連続的意味的類似性」の概念を導入する。
弱教師付きコントラスト学習のためのグラフ理論フレームワークを提案する。
我々のフレームワークは非常に多用途であり、多くの弱い教師付き学習シナリオに適用できる。
論文 参考訳(メタデータ) (2025-05-28T06:50:40Z) - Dual-level Fuzzy Learning with Patch Guidance for Image Ordinal Regression [8.538034422744005]
通常の回帰は、オブジェクトを順序付けられたクラスに割り当てることで、回帰と分類を橋渡しする。
現在のアプローチは、画像レベルの順序ラベルのみの可用性によって制限されている。
本稿では,DFPG という名称の Patch Guidance フレームワークによる2段階ファジィ学習を提案する。
論文 参考訳(メタデータ) (2025-05-09T07:01:14Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Class-Imbalanced Graph Learning without Class Rebalancing [62.1368829847041]
クラス不均衡は実世界のノード分類タスクでよく見られ、グラフ学習モデルには大きな課題がある。
本研究では、トポロジカルパラダイムからクラス不均衡バイアスの根本原因にアプローチする。
我々は,クラス再バランスを伴わずにクラス不均衡バイアスを軽減するために,軽量なトポロジカル拡張フレームワークであるBATを考案した。
論文 参考訳(メタデータ) (2023-08-27T19:01:29Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Topological Effects on Attacks Against Vertex Classification [61.62383779296796]
本稿では,グラフの2つのトポロジ的特徴を考察し,これらの特徴がグラフを乱さなければならない量に与える影響について考察する。
トレーニングセットに特定の頂点が組み込まれている場合、敵の要求する摂動予算を実質的に満たすことが可能であることを示す。
特に簡単なターゲット(たった1つか2つの摂動の後に誤って分類されるもの)であっても、パフォーマンスの劣化ははるかに遅く、誤ったクラスにずっと低い確率を割り当てる。
論文 参考訳(メタデータ) (2020-03-12T14:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。