論文の概要: Unified Language Representation for Question Answering over Text,
Tables, and Images
- arxiv url: http://arxiv.org/abs/2306.16762v1
- Date: Thu, 29 Jun 2023 08:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:19:16.029498
- Title: Unified Language Representation for Question Answering over Text,
Tables, and Images
- Title(参考訳): テキスト, 表, 画像による質問応答のための統一言語表現
- Authors: Bowen Yu, Cheng Fu, Haiyang Yu, Fei Huang, Yongbin Li
- Abstract要約: 我々は、画像とテーブルを統一言語表現に変換する代替パラダイムを提唱する。
このアイデアは、事前訓練された言語モデルのパワーを活用し、Solarと呼ばれるフレームワークで実装されている。
実験の結果、Solarは2つのデータセットで既存の手法を10.6-32.3 ptsで上回っていることがわかった。
- 参考スコア(独自算出の注目度): 42.54647250377826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When trying to answer complex questions, people often rely on multiple
sources of information, such as visual, textual, and tabular data. Previous
approaches to this problem have focused on designing input features or model
structure in the multi-modal space, which is inflexible for cross-modal
reasoning or data-efficient training. In this paper, we call for an alternative
paradigm, which transforms the images and tables into unified language
representations, so that we can simplify the task into a simpler textual QA
problem that can be solved using three steps: retrieval, ranking, and
generation, all within a language space. This idea takes advantage of the power
of pre-trained language models and is implemented in a framework called Solar.
Our experimental results show that Solar outperforms all existing methods by
10.6-32.3 pts on two datasets, MultimodalQA and MMCoQA, across ten different
metrics. Additionally, Solar achieves the best performance on the WebQA
leaderboard
- Abstract(参考訳): 複雑な質問に答えようとするとき、人々は視覚、テキスト、表データといった複数の情報ソースに依存することが多い。
この問題に対する以前のアプローチでは、マルチモーダル空間における入力特徴やモデル構造の設計に重点を置いており、クロスモーダル推論やデータ効率のトレーニングには柔軟性がない。
本稿では,検索,ランキング,生成という3つのステップによって解決可能な,より単純なテキスト的qa問題へとタスクを単純化するために,画像とテーブルを統一した言語表現に変換するパラダイムを提案する。
このアイデアは、事前訓練された言語モデルのパワーを活用し、Solarと呼ばれるフレームワークで実装されている。
実験の結果,Solarの既存手法は,MultimodalQAとMMCoQAの2つのデータセットで10.6-32.3 ptsで上回っていることがわかった。
さらに、SolarはWebQAのリーダーボードで最高のパフォーマンスを達成する
関連論文リスト
- Pre-training Cross-lingual Open Domain Question Answering with
Large-scale Synthetic Supervision [49.49928764695172]
CLQAは単一エンコーダデコーダモデルを用いて処理可能であることを示す。
ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。
教師付き言語適応設定とゼロショット言語適応設定の両方で同等の手法を上回り、我々のアプローチである textttCLASS を示す。
論文 参考訳(メタデータ) (2024-02-26T11:42:29Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - MaXM: Towards Multilingual Visual Question Answering [28.268881608141303]
我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)に対するスケーラブルなソリューションを提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
次に,Crossmodal-3600データセットの多言語キャプションに適用し,テスト専用VQAベンチマークであるMaXMを作成するための効率的なアノテーションプロトコルを開発する。
論文 参考訳(メタデータ) (2022-09-12T16:53:37Z) - Pay More Attention to History: A Context Modeling Strategy for
Conversational Text-to-SQL [8.038535788630542]
会話型テキスト・ツー・ドメインの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化することである。
本稿では,各ターンの追加による意味変化の明示的モデル化とコンテキスト全体の要約により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:41:04Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。