論文の概要: ScreenSearch: Uncertainty-Aware OS Exploration
- arxiv url: http://arxiv.org/abs/2605.16024v1
- Date: Fri, 15 May 2026 14:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.327786
- Title: ScreenSearch: Uncertainty-Aware OS Exploration
- Title(参考訳): ScreenSearch:不確実なOS探索
- Authors: Michael Solodko, Justin Wagle,
- Abstract要約: ScreenSearchは、構造画面の検索と重複をあいまいさを意識したPUCTグラフバンドと組み合わせて大規模なデスクトップ探索を行うシステムである。
我々は、この信号とフロンティア報酬を用いて、共有グラフ上で大規模な探索と再生開始ポリシー評価を促進する。
11のデスクトップアプリケーション全体で、ScreenSearchは100万以上のスクリーンショットと30万以上の重複状態を収集し、大規模な探索コーパスを生成する。
- 参考スコア(独自算出の注目度): 0.9310318514564272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Desktop GUI agents operate under partial observability: visually similar screens can correspond to different underlying workflow states, so locally plausible actions can lead to sharply different outcomes. We frame this as a problem of computer/OS state exploration, where effective behavior requires both expanding the reachable frontier and reducing ambiguity before committing. We present ScreenSearch, a system that combines structural screen retrieval and deduplication with an ambiguity-aware PUCT graph-bandit for large-scale desktop exploration. The retrieval layer converts UIA trees into location-aware structural features, indexes related screens through sparse token search and metadata filters, and maintains a shared deduplicated state graph across VM workers. On top of this graph, we define a scalable ambiguity signal based on matched-action outcome dispersion. If similar screens produce different next states under the same action signature, the state should be probed further rather than treated as resolved. We use this signal together with frontier rewards to drive large-scale exploration and replay-start policy evaluation over the shared graph. Across 11 desktop applications, ScreenSearch collects over 1M screenshots and over 30K deduplicated states, yielding large exploration corpora with substantial cross-application and within-application diversity. On a fixed replay-start slice, we observe a clear novelty--ambiguity trade-off: some policies reduce ambiguity quickly while discovering little frontier. Ambiguity reduction alone is therefore not a sufficient exploration objective. Appendix ablations show that stronger proposal priors can materially improve unique-state discovery during corpus building. These results suggest that state identity, proposal quality, and ambiguity-aware search all matter when deciding when to probe and when to commit.
- Abstract(参考訳): 視覚的に類似したスクリーンは、異なるワークフロー状態に対応できるため、局所的に妥当なアクションは、はっきりと異なる結果をもたらす可能性がある。
我々はこれをコンピュータ/OS状態探索の問題とみなし、効果的行動には、到達可能なフロンティアの拡大とコミット前のあいまいさの軽減の両方が必要である。
ScreenSearchは、構造画面の検索と重複をあいまいさを意識したPUCTグラフバンドと組み合わせて大規模なデスクトップ探索を行うシステムである。
検索層はUIAツリーを位置対応の構造特徴に変換し、スパーストークン検索とメタデータフィルタを通じて関連画面をインデックスし、VMワーカ間で共有された重複状態グラフを保持する。
このグラフの上に、一致した動作結果の分散に基づいて、スケーラブルなあいまいさ信号を定義する。
類似のスクリーンが同じアクションシグネチャの下で異なる次の状態を生成する場合、状態は解決されるように扱われるのではなく、さらに調査されるべきである。
我々は、この信号とフロンティア報酬を用いて、共有グラフ上で大規模な探索と再生開始ポリシー評価を促進する。
11のデスクトップアプリケーション全体で、ScreenSearchは100万以上のスクリーンショットと30万以上の重複状態を収集し、大規模な探索コーパスを生成し、アプリケーション間の相互運用とアプリケーション内部の多様性を実現している。
固定されたリプレイ開始スライスでは、明確な新規性-曖昧性トレードオフが観察される。
したがって、曖昧さの低減だけでは十分な探索目標にはならない。
Appendix ablationsは、より強力な提案がコーパスビルディング中の一意な状態発見を大幅に改善できることを示している。
これらの結果は、状態の同一性、提案品質、あいまいさを意識した検索が、いつ、いつ、いつ、コミットするかを決めるときに重要であることを示唆している。
関連論文リスト
- Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models [77.3748853516374]
視覚言語モデルのための学習不要なモデル固有のグラウンドリング手法を提案する。
モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズしてエントロピー勾配のレバレンスマップを得る。
次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入する。
論文 参考訳(メタデータ) (2026-04-09T16:51:42Z) - VIGIL: Tackling Hallucination Detection in Image Recontextualization [0.0]
幻覚の詳細な分類を提供する最初のベンチマークデータセットとフレームワークであるVIGILを紹介する。
本研究は,幻覚を5つのカテゴリに分解することで,マルチモーダル評価において大きなギャップを解消する。
我々のアーキテクチャは、オブジェクトレベルの忠実さ、背景の一貫性、欠落検出をターゲットとした一連の特別なステップを通じて、再構成された画像を処理する。
論文 参考訳(メタデータ) (2026-02-16T10:47:10Z) - VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文 参考訳(メタデータ) (2025-12-12T11:39:35Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions [24.794592610444514]
現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
論文 参考訳(メタデータ) (2020-02-20T10:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。