論文の概要: LineRetriever: Planning-Aware Observation Reduction for Web Agents
- arxiv url: http://arxiv.org/abs/2507.00210v1
- Date: Mon, 30 Jun 2025 19:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.654916
- Title: LineRetriever: Planning-Aware Observation Reduction for Web Agents
- Title(参考訳): LineRetriever: Webエージェントの計画的監視削減
- Authors: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Massimo Caccia, Véronique Eglin, Alexandre Aussem, Jérémy Espinas, Alexandre Lacoste,
- Abstract要約: ボトムアップ・トランケーションや埋め込みベースの検索といった現在のアプローチでは、ページの状態やアクション履歴に関する重要な情報が失われている。
textitLineRetrieverは、言語モデルを利用して、将来のナビゲーションステップに最も関係のある観測線を特定し、検索する新しいアプローチである。
- 参考スコア(独自算出の注目度): 76.60648750062036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models have demonstrated impressive capabilities in web navigation tasks, the extensive context of web pages, often represented as DOM or Accessibility Tree (AxTree) structures, frequently exceeds model context limits. Current approaches like bottom-up truncation or embedding-based retrieval lose critical information about page state and action history. This is particularly problematic for adaptive planning in web agents, where understanding the current state is essential for determining future actions. We hypothesize that embedding models lack sufficient capacity to capture plan-relevant information, especially when retrieving content that supports future action prediction. This raises a fundamental question: how can retrieval methods be optimized for adaptive planning in web navigation tasks? In response, we introduce \textit{LineRetriever}, a novel approach that leverages a language model to identify and retrieve observation lines most relevant to future navigation steps. Unlike traditional retrieval methods that focus solely on semantic similarity, \textit{LineRetriever} explicitly considers the planning horizon, prioritizing elements that contribute to action prediction. Our experiments demonstrate that \textit{LineRetriever} can reduce the size of the observation at each step for the web agent while maintaining consistent performance within the context limitations.
- Abstract(参考訳): 大規模な言語モデルは、Webナビゲーションタスクにおいて印象的な機能を示してきたが、Webページの広範なコンテキストは、しばしばDOMまたはアクセシビリティツリー(AxTree)構造として表現され、しばしばモデルコンテキストの制限を超える。
ボトムアップ・トランケーションや埋め込みベースの検索といった現在のアプローチでは、ページの状態やアクション履歴に関する重要な情報が失われている。
これは、将来の行動を決定する上で、現在の状態を理解することが不可欠であるWebエージェントのアダプティブプランニングにおいて特に問題となる。
我々は,今後の行動予測をサポートするコンテンツを検索する場合に,埋め込みモデルには計画関連情報を捕捉する十分な能力がないと仮定する。
これは、Webナビゲーションタスクの適応計画にどのように検索メソッドを最適化できるかという根本的な疑問を提起する。
そこで本稿では,言語モデルを利用して将来のナビゲーション手順に最も関係のある観測線を識別し,検索する新しいアプローチである,‘textit{LineRetriever} を紹介した。
意味的類似性のみに焦点を当てた従来の検索方法とは異なり、 \textit{LineRetriever} は計画の水平線を明示的に考慮し、アクション予測に寄与する要素を優先順位付けする。
実験の結果,<textit{LineRetriever} は,コンテキスト制約内での一貫性のある性能を維持しつつ,Web エージェントの各ステップにおける観測の規模を小さくすることができることがわかった。
関連論文リスト
- CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Embodied Active Learning of Relational State Abstractions for Bilevel
Planning [6.1678491628787455]
述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。
本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。
我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
論文 参考訳(メタデータ) (2023-03-08T22:04:31Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。