論文の概要: RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2502.03971v1
- Date: Thu, 06 Feb 2025 11:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:38.884249
- Title: RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
- Title(参考訳): RWKV-UI: 知覚と推論を強化したUI理解
- Authors: Jiaxi Yang, Haowen Hou,
- Abstract要約: RWKVアーキテクチャに基づくビジュアル言語モデルであるRWKV-UIを提案する。
モデルトレーニングでは、Webページレイアウト構造をよりよく理解するための視覚的プロンプトとしてレイアウト検出を導入する。
我々は,Webページの内容を理解し,解釈する能力を高めるために,Chain-of-Thought(CoT)機構に基づく視覚的プロンプトを設計する。
- 参考スコア(独自算出の注目度): 3.695991827897081
- License:
- Abstract: Existing Visual Language Modelsoften struggle with information loss and limited reasoning abilities when handling high-resolution web interfaces that combine complex visual, textual, and interactive elements. These challenges are particularly evident in tasks requiring webpage layout comprehension and multi-step interactive reasoning. To address these challenges, we propose RWKV-UI, a Visual Language Model based on the RWKV architecture, specifically designed to handle high-resolution UI images. During model training, we introduce layout detection as a visual prompt to help the model better understand the webpage layout structures. Additionally, we design a visual prompt based on the Chain-of-Thought(CoT) mechanism, which enhances the model's ability to understand and reason about webpage content through reasoning chains. Experimental results show that RWKV-UI demonstrates significant performance improvements in high-resolution UI understanding and interactive reasoning tasks.
- Abstract(参考訳): 既存のVisual Language Modelsoftenは、複雑なビジュアル、テキスト、インタラクティブな要素を組み合わせた高解像度のWebインターフェースを扱う際に、情報損失と限られた推論能力に苦しむ。
これらの課題は、Webページレイアウトの理解と多段階の対話的推論を必要とするタスクにおいて特に顕著である。
これらの課題に対処するために,RWKVアーキテクチャに基づくビジュアル言語モデルであるRWKV-UIを提案する。
モデルトレーニングでは、Webページレイアウト構造をよりよく理解するための視覚的プロンプトとしてレイアウト検出を導入する。
さらに,この機構をベースとした視覚的プロンプトを設計し,推論チェーンを通じてWebページの内容を理解し,解釈する能力を向上させる。
実験結果から,RWKV-UIは高分解能UI理解と対話型推論タスクにおいて,大幅な性能向上を示した。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning [6.035805925050573]
VGAはグラフィカルユーザインタフェース(GUI)の総合的な理解のために設計された微調整モデルである。
本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。
データセットと微調整スクリプトが近くリリースされる予定です。
論文 参考訳(メタデータ) (2024-06-20T07:24:43Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。