論文の概要: Understanding Procedural Knowledge by Sequencing Multimodal
Instructional Manuals
- arxiv url: http://arxiv.org/abs/2110.08486v1
- Date: Sat, 16 Oct 2021 06:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 16:20:37.465052
- Title: Understanding Procedural Knowledge by Sequencing Multimodal
Instructional Manuals
- Title(参考訳): マルチモーダル指導マニュアルのシークエンシングによる手続き知識の理解
- Authors: Te-Lin Wu, Alex Spangher, Pegah Alipoormolabashi, Marjorie Freedman,
Ralph Weischedel, Nanyun Peng
- Abstract要約: 我々は、順序のないマルチモーダル命令を推論し、シーケンシングする機械学習モデルの能力をベンチマークする。
モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。
本稿では,テキストと画像の逐次アライメント特性を利用した逐次性を考慮した事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 13.217624410001896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to sequence unordered events is an essential skill to comprehend
and reason about real world task procedures, which often requires thorough
understanding of temporal common sense and multimodal information, as these
procedures are often communicated through a combination of texts and images.
Such capability is essential for applications such as sequential task planning
and multi-source instruction summarization. While humans are capable of
reasoning about and sequencing unordered multimodal procedural instructions,
whether current machine learning models have such essential capability is still
an open question. In this work, we benchmark models' capability of reasoning
over and sequencing unordered multimodal instructions by curating datasets from
popular online instructional manuals and collecting comprehensive human
annotations. We find models not only perform significantly worse than humans
but also seem incapable of efficiently utilizing the multimodal information. To
improve machines' performance on multimodal event sequencing, we propose
sequentiality-aware pretraining techniques that exploit the sequential
alignment properties of both texts and images, resulting in > 5% significant
improvements.
- Abstract(参考訳): 順序のないイベントを順序付けする能力は、実世界のタスク手順を理解する上で必須のスキルであり、テキストと画像の組み合わせによって伝達されることが多いため、時間的共通感覚とマルチモーダル情報の徹底的な理解を必要とすることが多い。
このような機能はシーケンシャルなタスク計画やマルチソース命令の要約といったアプリケーションには不可欠です。
人間は、無秩序なマルチモーダル手続き命令を推論し、シーケンシングすることができるが、現在の機械学習モデルがそのような必須の能力を持っているかどうかは、まだ疑問の余地がある。
本研究では,一般的なオンライン指導マニュアルからデータセットをキュレートし,包括的な人間アノテーションを収集することで,非順序のマルチモーダル命令を推論しシーケンシングするモデルの能力を評価する。
モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。
マルチモーダルイベントシーケンシングにおける機械の性能を向上させるために,テキストと画像の逐次アライメント特性を利用した逐次性対応事前学習手法を提案する。
関連論文リスト
- From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-30T07:54:07Z) - Fine-tuning Large Language Models with Sequential Instructions [2.546845645875049]
既存の命令調整モデルでは、複数の命令でクエリに応答するのに苦労していることがわかった。
我々は、微調整データの一部がシーケンシャルに関連したタスクの連鎖を含むべきであると論じる。
既存のデータセットの命令を多種多様な複雑なシーケンシャルな命令に変換することで、このプロセスを自動化する。
逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。