論文の概要: MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images
- arxiv url: http://arxiv.org/abs/2309.04790v1
- Date: Sat, 9 Sep 2023 13:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:16:34.474526
- Title: MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images
- Title(参考訳): MMHQA-ICL:テキスト・テーブル・画像によるハイブリッド質問応答のためのマルチモーダルインコンテキスト学習
- Authors: Weihao Liu, Fangyu Lei, Tongxu Luo, Jiahe Lei, Shizhu He, Jun Zhao and
Kang Liu
- Abstract要約: コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。
この問題に対処するためのMMHQA-ICLフレームワークを提案する。
私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
- 参考スコア(独自算出の注目度): 24.17147521556083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, knowledge often exists in a multimodal and heterogeneous
form. Addressing the task of question answering with hybrid data types,
including text, tables, and images, is a challenging task (MMHQA). Recently,
with the rise of large language models (LLM), in-context learning (ICL) has
become the most popular way to solve QA problems. We propose MMHQA-ICL
framework for addressing this problems, which includes stronger heterogeneous
data retriever and an image caption module. Most importantly, we propose a
Type-specific In-context Learning Strategy for MMHQA, enabling LLMs to leverage
their powerful performance in this task. We are the first to use end-to-end LLM
prompting method for this task. Experimental results demonstrate that our
framework outperforms all baselines and methods trained on the full dataset,
achieving state-of-the-art results under the few-shot setting on the
MultimodalQA dataset.
- Abstract(参考訳): 実世界では、知識は多様で異質な形でしばしば存在する。
テキスト、テーブル、イメージを含むハイブリッドデータ型による質問応答のタスクに対処することは、挑戦的タスク(mmhqa)である。
近年,大規模言語モデル (LLM) の台頭に伴い,文脈内学習 (ICL) がQA問題を解く最も一般的な方法となっている。
本稿では,より強固な異種データレトリバーと画像キャプションモジュールを含む,この問題に対処するためのmmhqa-iclフレームワークを提案する。
最も重要なことは、MMHQAのためのタイプ固有のインコンテキスト学習戦略を提案することである。
私たちは、このタスクにエンドツーエンドのLCMプロンプトメソッドを最初に使用しています。
実験の結果,本フレームワークは,全データセットでトレーニングされたすべてのベースラインとメソッドを上回っており,マルチモーダルカデータセットの限られた設定下で最先端の結果を得ることができた。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely [8.507599833330346]
外部データで拡張された大規模言語モデル(LLM)は、現実世界のタスクを完了させる際、顕著な能力を示した。
Retrieval-Augmented Generation (RAG) とファインチューニングが注目され、広く応用されている。
しかし、データ拡張LDMを様々な専門分野に効果的に展開することは、重大な課題である。
論文 参考訳(メタデータ) (2024-09-23T11:20:20Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data [29.07028542633284]
テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
現在、異なるテーブル・ツー・テキスト・メソッドによって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークに,テーブル・ツー・テキスト生成を革新的に統合する。
論文 参考訳(メタデータ) (2024-02-20T10:00:58Z) - Can MLLMs Perform Text-to-Image In-Context Learning? [11.303734988815016]
テキスト・ツー・イメージ ICL (T2I-ICL) の特徴と潜在的な用途はいまだ検討されていない。
我々は6つの最先端マルチモーダル言語モデル(MLLM)をベンチマークする。
我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整やチェーン・オブ・ソートのような戦略がこれらの困難を緩和する助けとなることを示す。
論文 参考訳(メタデータ) (2024-02-02T10:30:05Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models [21.95962189710859]
本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
論文 参考訳(メタデータ) (2023-08-20T23:47:23Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。