Fugu-MT 論文翻訳(概要): Unified Language Representation for Question Answering over Text, Tables, and Images

論文の概要: Unified Language Representation for Question Answering over Text, Tables, and Images

arxiv url: http://arxiv.org/abs/2306.16762v1
Date: Thu, 29 Jun 2023 08:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 14:19:16.029498
Title: Unified Language Representation for Question Answering over Text, Tables, and Images
Title（参考訳）: テキスト, 表, 画像による質問応答のための統一言語表現
Authors: Bowen Yu, Cheng Fu, Haiyang Yu, Fei Huang, Yongbin Li
Abstract要約: 我々は、画像とテーブルを統一言語表現に変換する代替パラダイムを提唱する。このアイデアは、事前訓練された言語モデルのパワーを活用し、Solarと呼ばれるフレームワークで実装されている。実験の結果、Solarは2つのデータセットで既存の手法を10.6-32.3 ptsで上回っていることがわかった。
参考スコア（独自算出の注目度）: 42.54647250377826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When trying to answer complex questions, people often rely on multiple sources of information, such as visual, textual, and tabular data. Previous approaches to this problem have focused on designing input features or model structure in the multi-modal space, which is inflexible for cross-modal reasoning or data-efficient training. In this paper, we call for an alternative paradigm, which transforms the images and tables into unified language representations, so that we can simplify the task into a simpler textual QA problem that can be solved using three steps: retrieval, ranking, and generation, all within a language space. This idea takes advantage of the power of pre-trained language models and is implemented in a framework called Solar. Our experimental results show that Solar outperforms all existing methods by 10.6-32.3 pts on two datasets, MultimodalQA and MMCoQA, across ten different metrics. Additionally, Solar achieves the best performance on the WebQA leaderboard
Abstract（参考訳）: 複雑な質問に答えようとするとき、人々は視覚、テキスト、表データといった複数の情報ソースに依存することが多い。この問題に対する以前のアプローチでは、マルチモーダル空間における入力特徴やモデル構造の設計に重点を置いており、クロスモーダル推論やデータ効率のトレーニングには柔軟性がない。本稿では,検索,ランキング,生成という3つのステップによって解決可能な,より単純なテキスト的qa問題へとタスクを単純化するために,画像とテーブルを統一した言語表現に変換するパラダイムを提案する。このアイデアは、事前訓練された言語モデルのパワーを活用し、Solarと呼ばれるフレームワークで実装されている。実験の結果,Solarの既存手法は,MultimodalQAとMMCoQAの2つのデータセットで10.6-32.3 ptsで上回っていることがわかった。さらに、SolarはWebQAのリーダーボードで最高のパフォーマンスを達成する

関連論文リスト

ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文参考訳（メタデータ） (2024-07-08T15:37:51Z)
TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文参考訳（メタデータ） (2024-05-13T14:07:20Z)
Generating Multi-Aspect Queries for Conversational Search [6.974395116689502]
同じ検索モデルでは,nDCG@3で1回以上のリライトクエリが85%向上することを示す。本稿ではMQ4CSと呼ばれるマルチアスペクトクエリ生成・検索フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-28T10:40:22Z)
Semantic Parsing for Conversational Question Answering over Knowledge Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。本稿では,2つの意味解析手法を提案し,その課題を強調した。私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文参考訳（メタデータ） (2023-01-28T14:45:11Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文参考訳（メタデータ） (2021-04-13T09:14:28Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。