論文の概要: Target-dependent UNITER: A Transformer-Based Multimodal Language
Comprehension Model for Domestic Service Robots
- arxiv url: http://arxiv.org/abs/2107.00811v1
- Date: Fri, 2 Jul 2021 03:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:59:31.681189
- Title: Target-dependent UNITER: A Transformer-Based Multimodal Language
Comprehension Model for Domestic Service Robots
- Title(参考訳): target-dependent uniter: 国内サービスロボットのためのトランスフォーマーベースのマルチモーダル言語理解モデル
- Authors: Shintaro Ishikawa and Komei Sugiura
- Abstract要約: 画像内の関連領域に着目し,対象オブジェクトと他のオブジェクトの関係を直接学習するターゲット依存型UNITERを提案する。
提案手法は,汎用データセット上で事前学習が可能なUNITERベースのトランスフォーマーの拡張である。
本モデルでは,2つの標準データセットに対して検証を行い,分類精度の点で,ターゲット依存型UNITERがベースライン法より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, domestic service robots have an insufficient ability to interact
naturally through language. This is because understanding human instructions is
complicated by various ambiguities and missing information. In existing
methods, the referring expressions that specify the relationships between
objects are insufficiently modeled. In this paper, we propose Target-dependent
UNITER, which learns the relationship between the target object and other
objects directly by focusing on the relevant regions within an image, rather
than the whole image. Our method is an extension of the UNITER-based
Transformer that can be pretrained on general-purpose datasets. We extend the
UNITER approach by introducing a new architecture for handling the target
candidates. Our model is validated on two standard datasets, and the results
show that Target-dependent UNITER outperforms the baseline method in terms of
classification accuracy.
- Abstract(参考訳): 現在、国内サービスロボットは言語を通して自然に対話する能力が不十分である。
これは、人間の指示を理解するのに様々な曖昧さや情報不足が複雑であるからである。
既存手法では,オブジェクト間の関係を規定する参照表現は十分にモデル化されていない。
本稿では,画像全体ではなく,画像内の関連領域に焦点をあてることで,対象オブジェクトと他のオブジェクトの関係を直接学習するターゲット依存型UNITERを提案する。
本手法は汎用データセット上で事前学習可能なユニバーサベースのトランスフォーマの拡張である。
対象候補を扱うための新しいアーキテクチャを導入することで、UNITERアプローチを拡張します。
本モデルでは,2つの標準データセットに対して検証を行い,分類精度の点で,ターゲット依存型UNITERがベースライン法より優れていることを示す。
関連論文リスト
- Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Switching Head-Tail Funnel UNITER for Dual Referring Expression
Comprehension with Fetch-and-Carry Tasks [3.248019437833647]
本稿では,日常的な対象物を収集し,自由形式の自然言語指示に従って特定の目的地へ搬送するホームサービスロボットについて述べる。
既存の多モーダル言語理解手法のほとんどは、計算複雑性の観点からは実用的ではない。
対象物と宛先を1つのモデルで個別に予測することでタスクを解決できるスイッチングヘッドタイルファンネルUNITERを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:27:56Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Object-centric Inference for Language Conditioned Placement: A
Foundation Model based Approach [12.016988248578027]
本稿では,ロボットが言語命令の空間的制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置の課題に焦点を当てる。
提案するオブジェクト中心フレームワークは,参照対象と配置空間の関係を基底として基礎モデルを利用する。
論文 参考訳(メタデータ) (2023-04-06T06:51:15Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - BURT: BERT-inspired Universal Representation from Learning Meaningful
Segment [46.51685959045527]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
我々は、異なるレベルの言語単位を同じベクトル空間に符号化する普遍表現モデルburtを提案する。
具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。
論文 参考訳(メタデータ) (2020-12-28T16:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。