論文の概要: Prototypical Contrastive Transfer Learning for Multimodal Language
Understanding
- arxiv url: http://arxiv.org/abs/2307.05942v1
- Date: Wed, 12 Jul 2023 06:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:11:16.863504
- Title: Prototypical Contrastive Transfer Learning for Multimodal Language
Understanding
- Title(参考訳): マルチモーダル言語理解のための原型コントラスト変換学習
- Authors: Seitaro Otsuki, Shintaro Ishikawa, Komei Sugiura
- Abstract要約: 本稿では,PCTL(Prototypeal Contrastive Transfer Learning)と呼ばれる多モーダル言語理解のための新しいトランスファー学習手法を提案する。
国内環境における対象対象物を,自由形式の自然言語命令に従って識別するタスクに,PCTLを導入している。
実験の結果,PCTLの精度は78.1%,超微調整の精度は73.4%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although domestic service robots are expected to assist individuals who
require support, they cannot currently interact smoothly with people through
natural language. For example, given the instruction "Bring me a bottle from
the kitchen," it is difficult for such robots to specify the bottle in an
indoor environment. Most conventional models have been trained on real-world
datasets that are labor-intensive to collect, and they have not fully leveraged
simulation data through a transfer learning framework. In this study, we
propose a novel transfer learning approach for multimodal language
understanding called Prototypical Contrastive Transfer Learning (PCTL), which
uses a new contrastive loss called Dual ProtoNCE. We introduce PCTL to the task
of identifying target objects in domestic environments according to free-form
natural language instructions. To validate PCTL, we built new real-world and
simulation datasets. Our experiment demonstrated that PCTL outperformed
existing methods. Specifically, PCTL achieved an accuracy of 78.1%, whereas
simple fine-tuning achieved an accuracy of 73.4%.
- Abstract(参考訳): 家庭内サービスロボットは支援を必要とする個人を支援することが期待されているが、現在自然言語による円滑な対話はできない。
例えば、"bring me a bottle from the kitchen"という指示を考えると、そのようなロボットが屋内環境でボトルを指定することは困難である。
従来のモデルのほとんどは、作業集約型の実世界のデータセットでトレーニングされており、転送学習フレームワークを通じてシミュレーションデータを十分に活用していない。
本研究では,多モーダル言語理解のための新しい伝達学習手法であるPrototypeal Contrastive Transfer Learning (PCTL)を提案する。
国内環境における対象対象物を,自由形式の自然言語命令に従って識別するタスクにPCTLを導入する。
PCTLを検証するために、我々は新しい実世界とシミュレーションデータセットを構築した。
実験の結果,PCTLは既存の手法よりも優れていた。
特にPCTLは78.1%の精度を達成し、単純な微調整は73.4%の精度を達成した。
関連論文リスト
- Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data [37.542036032277466]
本稿では,言語理解問題における-simulation-to-real'転送手法を提案する。
我々のアプローチは、いくつかのドメインで自然言語データに基づいて訓練された最先端のモデルと一致または性能を向上する。
論文 参考訳(メタデータ) (2020-04-28T16:41:00Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。