論文の概要: Multimodal Sequential Generative Models for Semi-Supervised Language
Instruction Following
- arxiv url: http://arxiv.org/abs/2301.00676v1
- Date: Thu, 29 Dec 2022 03:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:32:47.294105
- Title: Multimodal Sequential Generative Models for Semi-Supervised Language
Instruction Following
- Title(参考訳): 半教師付き言語指導のためのマルチモーダルシーケンス生成モデル
- Authors: Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo
- Abstract要約: 本稿では,タスクの指示における半教師付き学習のためのマルチモーダル生成モデルを提案する。
モデルは、ペア化されたデータの共有表現を学習し、未ペアデータの再構築によって半教師付き学習を可能にする。
BabyAIおよびRoom-to-Room環境における実験により,提案手法は未ペアデータを活用することにより,命令の処理性能を向上させることを示した。
- 参考スコア(独自算出の注目度): 26.386772715777223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents that can follow language instructions are expected to be useful in a
variety of situations such as navigation. However, training neural
network-based agents requires numerous paired trajectories and languages. This
paper proposes using multimodal generative models for semi-supervised learning
in the instruction following tasks. The models learn a shared representation of
the paired data, and enable semi-supervised learning by reconstructing unpaired
data through the representation. Key challenges in applying the models to
sequence-to-sequence tasks including instruction following are learning a
shared representation of variable-length mulitimodal data and incorporating
attention mechanisms. To address the problems, this paper proposes a novel
network architecture to absorb the difference in the sequence lengths of the
multimodal data. In addition, to further improve the performance, this paper
shows how to incorporate the generative model-based approach with an existing
semi-supervised method called a speaker-follower model, and proposes a
regularization term that improves inference using unpaired trajectories.
Experiments on BabyAI and Room-to-Room (R2R) environments show that the
proposed method improves the performance of instruction following by leveraging
unpaired data, and improves the performance of the speaker-follower model by
2\% to 4\% in R2R.
- Abstract(参考訳): 言語指示に従うことができるエージェントは、ナビゲーションのような様々な状況で役に立つことが期待されている。
しかしながら、ニューラルネットワークベースのエージェントのトレーニングには、多数のペアトラックと言語が必要です。
本稿では,マルチモーダル生成モデルを用いた半教師付き学習手法を提案する。
モデルでは、ペアデータの共有表現を学習し、その表現を通して非ペアデータを再構成することにより、半教師あり学習を可能にする。
命令を含むシーケンス・ツー・シーケンスタスクにモデルを適用する上での課題は、可変長マルチモーダルデータの共有表現を学習し、注意機構を取り入れることである。
この問題に対処するために,マルチモーダルデータのシーケンス長の差を吸収する新しいネットワークアーキテクチャを提案する。
さらに, 提案手法は, 話者フォロワーモデルと呼ばれる既存の半教師付き手法に, 生成モデルに基づくアプローチを組み込む方法を示し, 未ペア軌道を用いた推論を改善する正規化項を提案する。
バビライおよびルームツールーム(r2r)環境における実験により,提案手法が非ペアデータを利用して命令追従性能を改善し,r2rにおける話者追従モデルの性能を2\%から4\%向上させることを示した。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - Controlled Training Data Generation with Diffusion Models [48.123126522294015]
本稿では,教師あり学習のためのトレーニングデータを生成するために,テキスト・ツー・イメージ生成モデルを制御する手法を提案する。
本研究では,2つのフィードバック機構を備えたクローズドループシステムを開発した。
論文 参考訳(メタデータ) (2024-03-22T15:59:24Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Mixing Consistent Deep Clustering [3.5786621294068373]
良い潜在表現は、2つの潜在表現の線形を復号する際に意味的に混合出力を生成する。
本稿では,表現をリアルに見せるための混合一貫性深層クラスタリング手法を提案する。
提案手法は,クラスタリング性能を向上させるために,既存のオートエンコーダに付加可能であることを示す。
論文 参考訳(メタデータ) (2020-11-03T19:47:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。