論文の概要: MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images
- arxiv url: http://arxiv.org/abs/2309.04790v1
- Date: Sat, 9 Sep 2023 13:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:16:34.474526
- Title: MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images
- Title(参考訳): MMHQA-ICL:テキスト・テーブル・画像によるハイブリッド質問応答のためのマルチモーダルインコンテキスト学習
- Authors: Weihao Liu, Fangyu Lei, Tongxu Luo, Jiahe Lei, Shizhu He, Jun Zhao and
Kang Liu
- Abstract要約: コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。
この問題に対処するためのMMHQA-ICLフレームワークを提案する。
私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
- 参考スコア(独自算出の注目度): 24.17147521556083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, knowledge often exists in a multimodal and heterogeneous
form. Addressing the task of question answering with hybrid data types,
including text, tables, and images, is a challenging task (MMHQA). Recently,
with the rise of large language models (LLM), in-context learning (ICL) has
become the most popular way to solve QA problems. We propose MMHQA-ICL
framework for addressing this problems, which includes stronger heterogeneous
data retriever and an image caption module. Most importantly, we propose a
Type-specific In-context Learning Strategy for MMHQA, enabling LLMs to leverage
their powerful performance in this task. We are the first to use end-to-end LLM
prompting method for this task. Experimental results demonstrate that our
framework outperforms all baselines and methods trained on the full dataset,
achieving state-of-the-art results under the few-shot setting on the
MultimodalQA dataset.
- Abstract(参考訳): 実世界では、知識は多様で異質な形でしばしば存在する。
テキスト、テーブル、イメージを含むハイブリッドデータ型による質問応答のタスクに対処することは、挑戦的タスク(mmhqa)である。
近年,大規模言語モデル (LLM) の台頭に伴い,文脈内学習 (ICL) がQA問題を解く最も一般的な方法となっている。
本稿では,より強固な異種データレトリバーと画像キャプションモジュールを含む,この問題に対処するためのmmhqa-iclフレームワークを提案する。
最も重要なことは、MMHQAのためのタイプ固有のインコンテキスト学習戦略を提案することである。
私たちは、このタスクにエンドツーエンドのLCMプロンプトメソッドを最初に使用しています。
実験の結果,本フレームワークは,全データセットでトレーニングされたすべてのベースラインとメソッドを上回っており,マルチモーダルカデータセットの限られた設定下で最先端の結果を得ることができた。
関連論文リスト
- UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
この設定をよりよく評価し、モデリング作業を容易にするために、テーブルを通してのテキストと計算について紹介する。
TACTには、1つ以上のテキストに散在する縫合情報を要求し、この情報を複雑な統合して回答を生成する、困難な命令が含まれている。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data [29.07028542633284]
テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
現在、異なるテーブル・ツー・テキスト・メソッドによって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークに,テーブル・ツー・テキスト生成を革新的に統合する。
論文 参考訳(メタデータ) (2024-02-20T10:00:58Z) - Can MLLMs Perform Text-to-Image In-Context Learning? [11.303734988815016]
テキスト・ツー・イメージ ICL (T2I-ICL) の特徴と潜在的な用途はいまだ検討されていない。
我々は6つの最先端マルチモーダル言語モデル(MLLM)をベンチマークする。
我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整やチェーン・オブ・ソートのような戦略がこれらの困難を緩和する助けとなることを示す。
論文 参考訳(メタデータ) (2024-02-02T10:30:05Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - What Large Language Models Bring to Text-rich VQA? [38.569505870771025]
テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。
上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-11-13T12:52:29Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models [21.95962189710859]
本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
論文 参考訳(メタデータ) (2023-08-20T23:47:23Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。