Fugu-MT 論文翻訳(概要): FLIN: A Flexible Natural Language Interface for Web Navigation

論文の概要: FLIN: A Flexible Natural Language Interface for Web Navigation

arxiv url: http://arxiv.org/abs/2010.12844v2
Date: Tue, 13 Apr 2021 23:39:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 12:00:48.153152
Title: FLIN: A Flexible Natural Language Interface for Web Navigation
Title（参考訳）: flin: webナビゲーションのための柔軟な自然言語インターフェース
Authors: Sahisnu Mazumder, Oriana Riva
Abstract要約: FLINは、ユーザコマンドを概念レベルのアクションにマッピングする、Webナビゲーションのための自然言語インターフェースである。ユーザコマンドとWebページが与えられた場合、FLINは最も関連するナビゲーション命令を得点することを学ぶ。その結果,FLINはドメイン内の新しいWebサイトに適応できることがわかった。
参考スコア（独自算出の注目度）: 16.593544815769466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI assistants can now carry out tasks for users by directly interacting with website UIs. Current semantic parsing and slot-filling techniques cannot flexibly adapt to many different websites without being constantly re-trained. We propose FLIN, a natural language interface for web navigation that maps user commands to concept-level actions (rather than low-level UI actions), thus being able to flexibly adapt to different websites and handle their transient nature. We frame this as a ranking problem: given a user command and a webpage, FLIN learns to score the most relevant navigation instruction (involving action and parameter values). To train and evaluate FLIN, we collect a dataset using nine popular websites from three domains. Our results show that FLIN was able to adapt to new websites in a given domain.
Abstract（参考訳）: AIアシスタントは、WebサイトのUIと直接対話することで、ユーザのタスクを実行することができる。現在のセマンティックパーシングとスロットフィル技術は、絶えず再訓練されることなく、多くの異なるウェブサイトに柔軟に対応できない。本稿では,ユーザコマンドを(低レベルのuiアクションではなく)概念レベルのアクションにマッピングする,webナビゲーションのための自然言語インターフェースであるflinを提案する。ユーザコマンドとWebページが与えられた場合、FLINは最も関連するナビゲーション命令(アクションとパラメータ値を含む)を得点することを学ぶ。 FLINをトレーニングし評価するために、我々は3つのドメインから9つの人気のあるウェブサイトを使ってデータセットを収集した。その結果,FLINはドメイン内の新しいWebサイトに適応できることがわかった。

関連論文リスト

VPN: Visual Prompt Navigation [86.7782248763078]
Visual Prompt Navigation(VPN)は、ユーザーが提供するビジュアルプロンプトのみを使用してエージェントをナビゲートする新しいパラダイムである。 VPNは主に、シーンのトップダウンビューで視覚的なナビゲーションの軌跡をマークすることに焦点を当てている。 VPNは、専門家でないユーザーにとってより親しみやすく、解釈の曖昧さを減らす。
論文参考訳（メタデータ） (2025-08-03T14:07:45Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavは、ReActにインスパイアされたアーキテクチャと生成AIを活用して、このフレームワークを提供する音声制御Webナビゲーションエージェントである。予備評価では、WebNavは、視覚障害者に対する応答時間とタスク完了精度において、従来のスクリーンリーダーよりも優れていた。
論文参考訳（メタデータ） (2025-03-18T02:33:27Z)
MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs [50.274447094978996]
マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
論文参考訳（メタデータ） (2024-12-19T15:02:33Z)
Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文参考訳（メタデータ） (2024-10-24T18:01:28Z)
Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。 LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文参考訳（メタデータ） (2024-10-16T01:37:58Z)
NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator [42.81368782434817]
NNetscape Navigator (NNetnav)は、ウェブエージェントを人工的なデモンストレーションで完全に訓練する方法である。 NNetnavは、言語命令の階層構造を利用して、この検索をより魅力的にしている。 WebArenaで6k以上のNNetnavデモのデータセットをリリースしました。
論文参考訳（メタデータ） (2024-10-03T18:56:51Z)
Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文参考訳（メタデータ） (2024-09-23T18:06:32Z)
AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文参考訳（メタデータ） (2024-04-04T17:58:40Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文参考訳（メタデータ） (2023-11-22T07:47:39Z)
$m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文参考訳（メタデータ） (2022-10-21T12:25:05Z)
AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。 AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文参考訳（メタデータ） (2022-10-14T16:35:06Z)
Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文参考訳（メタデータ） (2020-10-11T08:27:07Z)
Automatic Generation of Chatbots for Conversational Web Browsing [4.994942792036863]
シンプルなボット固有のアノテーションを備えたウェブサイトからボットを生成する基盤について述べる。目標は、ユーザーがキーボードとマウスを使ってグラフィカルなUIを操作するのではなく、”Webサイトに話しかける”ことによって、レンダリングされたUIを通じてアクセス可能なコンテンツや機能を使用できるようにすることだ。
論文参考訳（メタデータ） (2020-08-19T18:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。