論文の概要: MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants
- arxiv url: http://arxiv.org/abs/2110.06416v1
- Date: Wed, 13 Oct 2021 00:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:11:05.742205
- Title: MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants
- Title(参考訳): MMIU:マルチモーダルアシスタントにおける視覚インテント理解のためのデータセット
- Authors: Alkesh Patel, Joel Ruben Antony Moniz, Roman Nguyen, Nick Tzou, Hadas
Kotek, Vincent Renkens
- Abstract要約: MMIU(MultiModal Intent Understanding)と呼ばれる新しいデータセットは、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む。
そして、このデータセットをマルチモーダルデジタルアシスタントの意図分類タスクに使用します。
- 参考スコア(独自算出の注目度): 4.322454918650574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal assistant, where vision is also one of the input modalities,
the identification of user intent becomes a challenging task as visual input
can influence the outcome. Current digital assistants take spoken input and try
to determine the user intent from conversational or device context. So, a
dataset, which includes visual input (i.e. images or videos for the
corresponding questions targeted for multimodal assistant use cases, is not
readily available. The research in visual question answering (VQA) and visual
question generation (VQG) is a great step forward. However, they do not capture
questions that a visually-abled person would ask multimodal assistants.
Moreover, many times questions do not seek information from external knowledge.
In this paper, we provide a new dataset, MMIU (MultiModal Intent
Understanding), that contains questions and corresponding intents provided by
human annotators while looking at images. We, then, use this dataset for intent
classification task in multimodal digital assistant. We also experiment with
various approaches for combining vision and language features including the use
of multimodal transformer for classification of image-question pairs into 14
intents. We provide the benchmark results and discuss the role of visual and
text features for the intent classification task on our dataset.
- Abstract(参考訳): 視覚が入力モダリティの1つであるマルチモーダルアシスタントでは、視覚入力が結果に影響を与えるため、ユーザの意図の識別が困難なタスクとなる。
現在のデジタルアシスタントは音声入力を受け取り、会話やデバイスコンテキストからユーザの意図を判断しようとする。
したがって、マルチモーダルアシスタントのユースケースを対象とした視覚的な入力(例えば、対応する質問の画像やビデオ)を含むデータセットは、簡単には利用できない。
視覚的質問応答(VQA)と視覚的質問生成(VQG)の研究は大きな前進である。
しかし、視覚障害者がマルチモーダルアシスタントに尋ねるような質問は受け付けていない。
さらに、質問は外部知識から情報を求めないことが多い。
本稿では、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む新しいデータセットMMIU(MultiModal Intent Understanding)を提案する。
次に、マルチモーダルデジタルアシスタントの意図分類タスクにこのデータセットを使用します。
また,画像検索ペアを14の意図に分類するためのマルチモーダルトランスフォーマーなど,視覚と言語の特徴を組み合わせるための様々なアプローチも実験した。
ベンチマーク結果を提供し,データセット上のインテント分類タスクにおける視覚機能とテキスト機能の役割について考察する。
関連論文リスト
- Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Generating Natural Questions from Images for Multimodal Assistants [4.930442416763205]
本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-17T19:12:23Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。