論文の概要: Application of frozen large-scale models to multimodal task-oriented
dialogue
- arxiv url: http://arxiv.org/abs/2310.00845v1
- Date: Mon, 2 Oct 2023 01:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:43:27.385240
- Title: Application of frozen large-scale models to multimodal task-oriented
dialogue
- Title(参考訳): 凍結大規模モデルのマルチモーダルタスク指向対話への応用
- Authors: Tatsuki Kawamoto, Takuma Suzuki, Ko Miyama, Takumi Meguro, Tomohiro
Takagi
- Abstract要約: 既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we use the existing Large Language Models ENnhanced to See
Framework (LENS Framework) to test the feasibility of multimodal task-oriented
dialogues. The LENS Framework has been proposed as a method to solve computer
vision tasks without additional training and with fixed parameters of
pre-trained models. We used the Multimodal Dialogs (MMD) dataset, a multimodal
task-oriented dialogue benchmark dataset from the fashion field, and for the
evaluation, we used the ChatGPT-based G-EVAL, which only accepts textual
modalities, with arrangements to handle multimodal data. Compared to
Transformer-based models in previous studies, our method demonstrated an
absolute lift of 10.8% in fluency, 8.8% in usefulness, and 5.2% in relevance
and coherence. The results show that using large-scale models with fixed
parameters rather than using models trained on a dataset from scratch improves
performance in multimodal task-oriented dialogues. At the same time, we show
that Large Language Models (LLMs) are effective for multimodal task-oriented
dialogues. This is expected to lead to efficient applications to existing
systems.
- Abstract(参考訳): 本研究では、既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を用いて、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
ファッションフィールドからのマルチモーダルタスク指向対話ベンチマークデータセットであるマルチモーダルダイアログ(mmd)データセットを用いて評価を行い、マルチモーダルデータを扱うためのアレンジメントとともに、テキスト的モダリティのみを受け入れるchatgptベースのg-evalを用いた。
先行研究の変圧器モデルと比較すると, 本手法は絶対値が10.8%, 有用性8.8%, 妥当性5.2%であった。
その結果,データセットをゼロからトレーニングしたモデルではなく,パラメータを固定した大規模モデルを使用することで,マルチモーダルタスク指向対話の性能が向上した。
同時に,大規模言語モデル(LLM)が多モーダルなタスク指向対話に有効であることを示す。
これは既存のシステムに効率的なアプリケーションをもたらすことが期待されている。
関連論文リスト
- DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Gated Mechanism Enhanced Multi-Task Learning for Dialog Routing [28.870359916550996]
ゲート機構強化マルチタスクモデル(G3M)
提案では、新しいダイアログエンコーダと、2つの調整されたゲート機構モジュールを提案する。
実世界のアプリケーションから収集した2つのデータセットに基づいて,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2023-04-07T16:51:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。