Fugu-MT 論文翻訳(概要): The Impact of Element Ordering on LM Agent Performance

論文の概要: The Impact of Element Ordering on LM Agent Performance

arxiv url: http://arxiv.org/abs/2409.12089v2
Date: Thu, 19 Sep 2024 05:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-20 13:12:23.582277
Title: The Impact of Element Ordering on LM Agent Performance
Title（参考訳）: EL素子の発注が加工性能に及ぼす影響
Authors: Wayne Chi, Ameet Talwalkar, Chris Donahue,
Abstract要約: ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。
参考スコア（独自算出の注目度）: 25.738019870722482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There has been a surge of interest in language model agents that can navigate virtual environments such as the web or desktop. To navigate such environments, agents benefit from information on the various elements (e.g., buttons, text, or images) present. It remains unclear which element attributes have the greatest impact on agent performance, especially in environments that only provide a graphical representation (i.e., pixels). Here we find that the ordering in which elements are presented to the language model is surprisingly impactful--randomizing element ordering in a webpage degrades agent performance comparably to removing all visible text from an agent's state representation. While a webpage provides a hierarchical ordering of elements, there is no such ordering when parsing elements directly from pixels. Moreover, as tasks become more challenging and models more sophisticated, our experiments suggest that the impact of ordering increases. Finding an effective ordering is non-trivial. We investigate the impact of various element ordering methods in web and desktop environments. We find that dimensionality reduction provides a viable ordering for pixel-only environments. We train a UI element detection model to derive elements from pixels and apply our findings to an agent benchmark--OmniACT--where we only have access to pixels. Our method completes more than two times as many tasks on average relative to the previous state-of-the-art.
Abstract（参考訳）: Webやデスクトップなどの仮想環境をナビゲートできる言語モデルエージェントへの関心が高まっている。このような環境をナビゲートするために、エージェントは、様々な要素(例えば、ボタン、テキスト、画像)に関する情報から恩恵を受ける。特にグラフィカルな表現(ピクセル)のみを提供する環境では、どの要素属性がエージェントのパフォーマンスに最も大きな影響を与えるのかは不明だ。ここでは,言語モデルに要素が提示される順序付けが驚くほど影響を受けており,Webページ内のランダム化要素の順序付けはエージェントの状態表現からすべての可視テキストを削除することで,エージェントのパフォーマンスを両立させる。ウェブページは要素の階層的な順序付けを提供するが、ピクセルから直接要素を解析する際にそのような順序付けは存在しない。さらに、タスクがより困難になり、モデルがより洗練されるにつれて、我々の実験は注文の影響が増加することを示唆している。効果的な注文を見つけることは簡単ではない。ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。 UI要素の検出モデルをトレーニングして、ピクセルから要素を抽出し、その結果をエージェントベンチマーク(OmniACT)に適用します。本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。

関連論文リスト

How do Visual Attributes Influence Web Agents? A Comprehensive Evaluation of User Interface Design Factors [12.445105236386008]
Webページの視覚属性因子がWebエージェントの意思決定にどのように影響するかを定量化するパイプラインであるVAFを紹介する。 VAFは、 (i) 変動生成、 (ii) ブラウジング相互作用、 (iii) クリックアクションとエージェントからの推論の両方を通して検証する3つのステージから構成される。原型と変種の違いを定量的に測定することにより、どの視覚特性がエージェントの行動に最も影響するかを識別する。
論文参考訳（メタデータ） (2026-01-29T16:40:15Z)
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images [58.73779101355669]
PixelCraftは、高忠実度画像処理と、構造化画像に対する柔軟な視覚的推論のための、新しいマルチエージェントシステムである。この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった3段階の動的なワークフローを通じて、視覚的推論を容易にする。
論文参考訳（メタデータ） (2025-09-29T17:59:49Z)
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文参考訳（メタデータ） (2025-09-22T17:59:40Z)
Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文参考訳（メタデータ） (2025-07-04T17:37:15Z)
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文参考訳（メタデータ） (2025-04-14T17:52:22Z)
From Pixels to Components: Eigenvector Masking for Visual Representation Learning [55.567395509598065]
画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
論文参考訳（メタデータ） (2025-02-10T10:06:46Z)
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web [61.96082780724042]
我々は、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整した。本稿では、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。また、性能向上のために5ホップのマルチモーダル・チェーン・オブ・ソート・プロンプティングも設計しています。
論文参考訳（メタデータ） (2024-09-14T05:38:26Z)
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文参考訳（メタデータ） (2024-06-27T17:59:01Z)
Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文参考訳（メタデータ） (2024-06-03T17:58:43Z)
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。 Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。 DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文参考訳（メタデータ） (2023-10-25T13:12:39Z)
MvP: Multi-view Prompting Improves Aspect Sentiment Tuple Prediction [14.177875807409434]
異なる順序で生成された感情要素を集約するMulti-view Prompting (MvP)を提案する。 MvPは自然に要素の置換と組み合わせとしてマルチビューとマルチタスクをモデル化することができる。大規模な実験により、MvPは4つのベンチマークタスクの10のデータセットで最先端のパフォーマンスを大幅に向上することが示された。
論文参考訳（メタデータ） (2023-05-22T01:32:50Z)
DisPositioNet: Disentangled Pose and Identity in Semantic Image Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文参考訳（メタデータ） (2022-11-10T11:47:37Z)
Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。多様なアプリケーションにおけるMViT提案の重要性を示す。
論文参考訳（メタデータ） (2021-11-22T18:59:29Z)
Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文参考訳（メタデータ） (2021-11-11T17:59:42Z)
Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文参考訳（メタデータ） (2021-07-09T13:57:37Z)
Realizing Pixel-Level Semantic Learning in Complex Driving Scenes based on Only One Annotated Pixel per Class [17.481116352112682]
本稿では,複雑な運転シーン下でのセマンティックセマンティックセマンティクスタスクを提案する。 3段階のプロセスは擬似ラベル生成のために構築され、各カテゴリに最適な特徴表現を徐々に実装する。 Cityscapesデータセットの実験は、提案手法が弱教師付きセマンティックセマンティックセマンティクスタスクを解決するための実現可能な方法であることを示した。
論文参考訳（メタデータ） (2020-03-10T12:57:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。