論文の概要: Multimodal Multi-Hop Question Answering Through a Conversation Between
Tools and Efficiently Finetuned Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08922v1
- Date: Sat, 16 Sep 2023 08:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:31:25.684494
- Title: Multimodal Multi-Hop Question Answering Through a Conversation Between
Tools and Efficiently Finetuned Large Language Models
- Title(参考訳): ツール間の会話を通したマルチモーダル・マルチホップ質問応答と大規模言語モデルの効率向上
- Authors: Hossein Rajabzadeh, Suyuchen Wang, Hyock Ju Kwon, Bang Liu
- Abstract要約: 我々は、複雑なマルチホップ質問に答えるために、ツールと相互作用する分割・クエリ戦略を採用する。
LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。
提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。
- 参考スコア(独自算出の注目度): 20.52053559484399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We employ a tool-interacting divide-and-conquer strategy enabling large
language models (LLMs) to answer complex multimodal multi-hop questions. In
particular, we harness the power of large language models to divide a given
multimodal multi-hop question into unimodal single-hop sub-questions to be
answered by the appropriate tool from a predefined set of tools. After all
corresponding tools provide the LLM with their answers, the LLM generates the
next relevant unimodal single-hop question. To increase the reasoning ability
of LLMs, we prompt chatGPT to generate a tool-interacting divide-and-conquer
dataset. This dataset is then used to efficiently finetune the corresponding
LLM. To assess the effectiveness of this approach, we conduct an evaluation on
two recently introduced complex question-answering datasets. The experimental
analysis demonstrate substantial improvements over existing state-of-the-art
solutions, indicating the efficacy and generality of our strategy
- Abstract(参考訳): 我々は,言語モデル (LLM) が複雑なマルチモーダルなマルチホップ問題に答えられるような,ツール間相互作用型分割型戦略を採用している。
特に,大規模言語モデルのパワーを利用して,与えられたマルチモーダルなマルチホップ質問を,事前定義されたツールセットから適切なツールによって答えられるような単一ホップサブクェリに分割する。
対応するすべてのツールが LLM に回答を与えると、LCM は次の一対一の単一ホップ問題を生成する。
LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。
このデータセットは、対応するLLMを効率的に微調整するために使用される。
提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。
実験解析により既存の最先端ソリューションよりも大幅に改善され、我々の戦略の有効性と汎用性を示している。
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - From Good to Great: Improving Math Reasoning with Tool-Augmented
Interleaf Prompting [45.77084082197953]
IMP-TIP: Tool-augmented Interleaf Promptingによる数学推論の改善。
IMP-TIP: Tool-augmented Interleaf PromptingによるMath Reasoningの改善について紹介する。
論文 参考訳(メタデータ) (2023-12-18T06:31:23Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Beyond Text: Unveiling Multimodal Proficiency of Large Language Models
with MultiAPI Benchmark [11.572835837392867]
この研究は、包括的な大規模APIベンチマークデータセットのパイオニアであるMultiAPIを紹介した。
235の多様なAPIコールと2,038のコンテキストプロンプトで構成されており、マルチモーダルタスクを扱うツール拡張LDMのユニークなプラットフォーム評価を提供する。
LLMはAPIコール決定の熟練度を示すが,ドメイン識別や関数選択,引数生成といった課題に直面している。
論文 参考訳(メタデータ) (2023-11-21T23:26:05Z) - Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。
まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。
第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。