論文の概要: FLIN: A Flexible Natural Language Interface for Web Navigation
- arxiv url: http://arxiv.org/abs/2010.12844v2
- Date: Tue, 13 Apr 2021 23:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:00:48.153152
- Title: FLIN: A Flexible Natural Language Interface for Web Navigation
- Title(参考訳): flin: webナビゲーションのための柔軟な自然言語インターフェース
- Authors: Sahisnu Mazumder, Oriana Riva
- Abstract要約: FLINは、ユーザコマンドを概念レベルのアクションにマッピングする、Webナビゲーションのための自然言語インターフェースである。
ユーザコマンドとWebページが与えられた場合、FLINは最も関連するナビゲーション命令を得点することを学ぶ。
その結果,FLINはドメイン内の新しいWebサイトに適応できることがわかった。
- 参考スコア(独自算出の注目度): 16.593544815769466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI assistants can now carry out tasks for users by directly interacting with
website UIs. Current semantic parsing and slot-filling techniques cannot
flexibly adapt to many different websites without being constantly re-trained.
We propose FLIN, a natural language interface for web navigation that maps user
commands to concept-level actions (rather than low-level UI actions), thus
being able to flexibly adapt to different websites and handle their transient
nature. We frame this as a ranking problem: given a user command and a webpage,
FLIN learns to score the most relevant navigation instruction (involving action
and parameter values). To train and evaluate FLIN, we collect a dataset using
nine popular websites from three domains. Our results show that FLIN was able
to adapt to new websites in a given domain.
- Abstract(参考訳): AIアシスタントは、WebサイトのUIと直接対話することで、ユーザのタスクを実行することができる。
現在のセマンティックパーシングとスロットフィル技術は、絶えず再訓練されることなく、多くの異なるウェブサイトに柔軟に対応できない。
本稿では,ユーザコマンドを(低レベルのuiアクションではなく)概念レベルのアクションにマッピングする,webナビゲーションのための自然言語インターフェースであるflinを提案する。
ユーザコマンドとWebページが与えられた場合、FLINは最も関連するナビゲーション命令(アクションとパラメータ値を含む)を得点することを学ぶ。
FLINをトレーニングし評価するために、我々は3つのドメインから9つの人気のあるウェブサイトを使ってデータセットを収集した。
その結果,FLINはドメイン内の新しいWebサイトに適応できることがわかった。
関連論文リスト
- MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs [50.274447094978996]
マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。
本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
論文 参考訳(メタデータ) (2024-12-19T15:02:33Z) - Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。
異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文 参考訳(メタデータ) (2024-10-24T18:01:28Z) - Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文 参考訳(メタデータ) (2024-10-16T01:37:58Z) - Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Automatic Generation of Chatbots for Conversational Web Browsing [4.994942792036863]
シンプルなボット固有のアノテーションを備えたウェブサイトからボットを生成する基盤について述べる。
目標は、ユーザーがキーボードとマウスを使ってグラフィカルなUIを操作するのではなく、”Webサイトに話しかける”ことによって、レンダリングされたUIを通じてアクセス可能なコンテンツや機能を使用できるようにすることだ。
論文 参考訳(メタデータ) (2020-08-19T18:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。