論文の概要: SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph
- arxiv url: http://arxiv.org/abs/2301.01949v1
- Date: Thu, 5 Jan 2023 08:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:15:21.687006
- Title: SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph
- Title(参考訳): spring:インクリメンタルレイアウトグラフからマルチモーダル質問を事前学習した会話エージェント
- Authors: Yuxing Long, Binyuan Hui, Fulong Ye, Yanyang Li, Zhuoxin Han, Caixia
Yuan, Yongbin Li, Xiaojie Wang
- Abstract要約: Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。
プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 16.275155481031348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal conversation agents have shown impressive abilities to
locate absolute positions or retrieve attributes in simple scenarios, but they
fail to perform well when complex relative positions and information alignments
are involved, which poses a bottleneck in response quality. In this paper, we
propose a Situated Conversation Agent Petrained with Multimodal Questions from
INcremental Layout Graph (SPRING) with abilities of reasoning multi-hops
spatial relations and connecting them with visual attributes in crowded
situated scenarios. Specifically, we design two types of Multimodal Question
Answering (MQA) tasks to pretrain the agent. All QA pairs utilized during
pretraining are generated from novel Incremental Layout Graphs (ILG). QA pair
difficulty labels automatically annotated by ILG are used to promote MQA-based
Curriculum Learning. Experimental results verify the SPRING's effectiveness,
showing that it significantly outperforms state-of-the-art approaches on both
SIMMC 1.0 and SIMMC 2.0 datasets.
- Abstract(参考訳): 既存のマルチモーダル会話エージェントは、単純なシナリオで絶対位置の特定や属性の検索に優れた能力を示してきたが、複雑な相対位置や情報アライメントが関与する場合にはうまく機能せず、応答品質のボトルネックとなる。
本稿では,マルチホップ空間関係を推論し,混み合った状況下で視覚属性と接続する能力を持つ,インクリメンタルレイアウトグラフ(spring)から多変量質問を入力した位置対話エージェントを提案する。
具体的には、エージェントを事前訓練するための2種類のマルチモーダル質問応答(MQA)タスクを設計する。
プレトレーニングで使用するQAペアはすべて、新しいインクリメンタルレイアウトグラフ(ILG)から生成される。
ILGによって自動的に注釈付けされたQAペア困難ラベルは、MQAベースのカリキュラム学習を促進するために使用される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回ることが示された。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart [26.54501344351476]
C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。
我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
論文 参考訳(メタデータ) (2024-10-28T18:13:14Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。