論文の概要: DOMINO: A Dual-System for Multi-step Visual Language Reasoning
- arxiv url: http://arxiv.org/abs/2310.02804v1
- Date: Wed, 4 Oct 2023 13:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:00:30.844625
- Title: DOMINO: A Dual-System for Multi-step Visual Language Reasoning
- Title(参考訳): DOMINO: マルチステップビジュアル言語推論のためのデュアルシステム
- Authors: Peifang Wang and Olga Golovneva and Armen Aghajanyan and Xiang Ren and
Muhao Chen and Asli Celikyilmaz and Maryam Fazel-Zarandi
- Abstract要約: 視覚情報抽出のための「System-1」ステップと、意図的な推論のための「System-2」ステップからなる多段階マルチモーダル推論のためのデュアルシステムを提案する。
事前学習した System-2 モジュールを用いた本手法は, 配当データと配当データの先行処理と比較して, 競合的に動作する。
- 参考スコア(独自算出の注目度): 76.69157235928594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual language reasoning requires a system to extract text or numbers from
information-dense images like charts or plots and perform logical or arithmetic
reasoning to arrive at an answer. To tackle this task, existing work relies on
either (1) an end-to-end vision-language model trained on a large amount of
data, or (2) a two-stage pipeline where a captioning model converts the image
into text that is further read by another large language model to deduce the
answer. However, the former approach forces the model to answer a complex
question with one single step, and the latter approach is prone to inaccurate
or distracting information in the converted text that can confuse the language
model. In this work, we propose a dual-system for multi-step multimodal
reasoning, which consists of a "System-1" step for visual information
extraction and a "System-2" step for deliberate reasoning. Given an input,
System-2 breaks down the question into atomic sub-steps, each guiding System-1
to extract the information required for reasoning from the image. Experiments
on chart and plot datasets show that our method with a pre-trained System-2
module performs competitively compared to prior work on in- and
out-of-distribution data. By fine-tuning the System-2 module (LLaMA-2 70B) on
only a small amount of data on multi-step reasoning, the accuracy of our method
is further improved and surpasses the best fully-supervised end-to-end approach
by 5.7% and a pipeline approach with FlanPaLM (540B) by 7.5% on a challenging
dataset with human-authored questions.
- Abstract(参考訳): 視覚的言語推論では,グラフやプロットなどの情報拡散画像からテキストや数値を抽出し,論理的あるいは算術的推論を実行して回答を得る必要がある。
この課題に対処するために、既存の作業は(1)大量のデータに基づいて訓練されたエンドツーエンドの視覚言語モデル、(2)キャプションモデルが画像を他の大きな言語モデルによってさらに読まれるテキストに変換して解答を導出する2段階のパイプラインに依存する。
しかし、前者のアプローチは複雑な問題に1つのステップで答えるようモデルに強制し、後者のアプローチは、言語モデルを混乱させる可能性のある変換されたテキストの情報を不正確または不正確なものにする傾向がある。
本研究では,視覚情報抽出のための"system-1"ステップと,推論を意図する"system-2"ステップからなる,多段階マルチモーダル推論のためのデュアルシステムを提案する。
入力が与えられた場合、System-2はその問題をアトミックなサブステップに分解し、各システム-1が画像から推論に必要な情報を抽出する。
図表とプロットデータセットを用いた実験では,事前学習されたsystem-2モジュールを用いた手法が,配信データおよび配信データに対する先行作業と比較して競争力が高いことが示された。
システム2モジュール (LLaMA-2 70B) を少量のデータのみに微調整することにより,提案手法の精度をさらに向上し,FlanPaLM (540B) を用いたパイプラインアプローチを5.7%向上させるとともに,人間による質問に対して7.5%向上させる。
関連論文リスト
- Improving Multi-Domain Task-Oriented Dialogue System with Offline Reinforcement Learning [5.18578230548982]
タスク指向対話(TOD)システムは、対話を通じてユーザ定義タスクを達成するように設計されている。
本稿では,統合事前学習型言語モデルであるGPT2をベースモデルとして利用するTODシステムを提案する。
本モデルでは, ベースラインと比較して情報提供率を1.60%, 成功率を3.17%向上させる。
論文 参考訳(メタデータ) (2024-11-08T05:43:40Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - DePlot: One-shot visual language reasoning by plot-to-table translation [50.28850068391312]
本稿では,視覚言語推論における最初のワンショットソリューションを提案する。
DePlotと名付けられたモダリティ変換モジュールは、プロットやチャートのイメージを線形化されたテーブルに変換する。
次に、DePlotの出力を直接使用して、事前訓練された大きな言語モデルをプロンプトすることができる。
論文 参考訳(メタデータ) (2022-12-20T18:20:50Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head
Co-Attention for Reading Comprehension of Abstract Meaning [6.55600662108243]
本稿では,SemEval 2021 Task 4: Reading of Abstract Meaningに提出したシステムについて述べる。
本システムでは,エンコーダとして大規模な事前学習型言語モデルと,パスと質問応答ペアの関係性を高めるために,二重多頭部協調層を用いる。
本システムは,WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA) と呼ばれ,それぞれ86.67%,89.99%の精度を達成している。
論文 参考訳(メタデータ) (2021-03-30T06:22:58Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。