論文の概要: SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented
Dialogue with Symbolic Scene Representation
- arxiv url: http://arxiv.org/abs/2307.04907v1
- Date: Mon, 10 Jul 2023 21:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 16:49:45.535215
- Title: SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented
Dialogue with Symbolic Scene Representation
- Title(参考訳): SimpleMTOD:シンボリックシーン表現を用いたマルチモーダルタスク指向対話のための簡易言語モデル
- Authors: Bhathiya Hemanthage, Christian Dondrup, Phil Bartie, Oliver Lemon
- Abstract要約: SimpleMTODは、シーケンス予測タスクとしてマルチモーダルタスク指向対話でいくつかのサブタスクをリキャストする。
シーン内のオブジェクトに対して、ローカルトークンと非ローカライズトークンの両方を導入します。
このモデルは、分類ヘッドのようなタスク固有のアーキテクチャ変更に依存しない。
- 参考スコア(独自算出の注目度): 2.4469484645516837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SimpleMTOD is a simple language model which recasts several sub-tasks in
multimodal task-oriented dialogues as sequence prediction tasks. SimpleMTOD is
built on a large-scale transformer-based auto-regressive architecture, which
has already proven to be successful in uni-modal task-oriented dialogues, and
effectively leverages transfer learning from pre-trained GPT-2. In-order to
capture the semantics of visual scenes, we introduce both local and
de-localized tokens for objects within a scene. De-localized tokens represent
the type of an object rather than the specific object itself and so possess a
consistent meaning across the dataset. SimpleMTOD achieves a state-of-the-art
BLEU score (0.327) in the Response Generation sub-task of the SIMMC 2.0
test-std dataset while performing on par in other multimodal sub-tasks:
Disambiguation, Coreference Resolution, and Dialog State Tracking. This is
despite taking a minimalist approach for extracting visual (and non-visual)
information. In addition the model does not rely on task-specific architectural
changes such as classification heads.
- Abstract(参考訳): simplemtodは単純な言語モデルであり、複数のタスク指向対話をシーケンス予測タスクとして再キャストする。
SimpleMTODは、一様タスク指向の対話ですでに成功している大規模なトランスフォーマーベースの自動回帰アーキテクチャ上に構築されており、事前訓練されたGPT-2からの転送学習を効果的に活用している。
視覚シーンのセマンティクスを捉えるために,シーン内のオブジェクトに対して局所トークンと非局所トークンを導入する。
非ローカライズされたトークンは、特定のオブジェクト自身ではなく、オブジェクトの型を表し、データセット全体で一貫した意味を持つ。
SimpleMTODはSIMMC 2.0テストストッドデータセットのレスポンス生成サブタスクで最先端のBLEUスコア(0.327)を達成し、他のマルチモーダルサブタスク(曖昧さ、参照解決、ダイアログ状態追跡)と同等に実行する。
これは視覚的(および非視覚的)情報を抽出するための最小主義的アプローチである。
さらに、モデルは分類ヘッドのようなタスク固有のアーキテクチャ変更に依存しない。
関連論文リスト
- Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations [1.1650821883155187]
Contrastive $lambda$-Repformerを提案する。これは、画像と命令文を整列させることで、テーブルトップ操作タスクのタスク成功を予測する。
提案手法は,以下の3つの重要な特徴を多レベルアライメント表現に統合する。
Contrastive $lambda$-Repformerを,大規模標準データセット,RT-1データセット,物理ロボットプラットフォームに基づいて評価する。
論文 参考訳(メタデータ) (2024-10-01T06:35:34Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。