論文の概要: WebQuest: A Benchmark for Multimodal QA on Web Page Sequences
- arxiv url: http://arxiv.org/abs/2409.13711v2
- Date: Tue, 24 Sep 2024 18:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.431057
- Title: WebQuest: A Benchmark for Multimodal QA on Web Page Sequences
- Title(参考訳): WebQuest: WebページシーケンスのマルチモーダルQAベンチマーク
- Authors: Maria Wang, Srinivas Sunkara, Gilles Baechler, Jason Lin, Yun Zhu, Fedir Zubach, Lei Shu, Jindong Chen,
- Abstract要約: WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
- 参考スコア(独自算出の注目度): 10.008284460456107
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of powerful multimodal LLMs has enhanced the viability of building web agents which can, with increasing levels of autonomy, assist users to retrieve information and complete tasks on various human-computer interfaces. It is hence necessary to build challenging benchmarks that span a wide-variety of use cases reflecting real-world usage. In this work, we present WebQuest, a multi-page question-answering dataset that requires reasoning across multiple related web pages. In contrast to existing UI benchmarks that focus on multi-step web navigation and task completion, our dataset evaluates information extraction, multimodal retrieval and composition of information from many web pages. WebQuest includes three question categories: single-screen QA, multi-screen QA, and QA based on navigation traces. We evaluate leading proprietary multimodal models like GPT-4V, Gemini Flash, Claude 3, and open source models like InstructBLIP, PaliGemma on our dataset, revealing a significant gap between single-screen and multi-screen reasoning. Finally, we investigate inference time techniques like Chain-of-Thought prompting to improve model capabilities on multi-screen reasoning.
- Abstract(参考訳): 強力なマルチモーダル LLM の台頭により,Web エージェント構築の可能性が向上し,自律性が向上し,ユーザによる情報検索や,さまざまなヒューマンコンピュータインタフェース上でのタスク完了の支援が可能になった。
したがって、現実世界の使用を反映した幅広いユースケースにまたがる、挑戦的なベンチマークを構築する必要がある。
本稿では,複数の関連Webページ間の推論を必要とする多ページ質問回答データセットであるWebQuestを紹介する。
マルチステップのWebナビゲーションとタスク補完に焦点を当てた既存のUIベンチマークとは対照的に,我々のデータセットは,多くのWebページからの情報抽出,マルチモーダル検索,および情報の合成を評価する。
WebQuestには,ナビゲーショントレースに基づくシングルスクリーンQA,マルチスクリーンQA,QAの3つのカテゴリがある。
我々は、GPT-4V、Gemini Flash、Claude 3のような主要なプロプライエタリなマルチモーダルモデルと、データセット上のInstructBLIP、PaliGemmaのようなオープンソースモデルを評価し、シングルスクリーンとマルチスクリーンの推論の間に大きなギャップがあることを明らかにした。
最後に,マルチスクリーン推論におけるモデル機能の向上を促す,Chain-of-Thoughtのような推論時間手法について検討する。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Multi-modal Situated Reasoning in 3D Scenes [32.800524889357305]
大規模マルチモーダル位置推論データセットであるMSQA(Multi-modal Situated Question Answering)を提案する。
MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。
また,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションに対するモデルの位置的推論を評価する。
論文 参考訳(メタデータ) (2024-09-04T02:37:38Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking [41.716532647616134]
3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。
本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。
論文 参考訳(メタデータ) (2023-12-11T04:49:47Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。