論文の概要: Practical Cross-modal Manifold Alignment for Grounded Language
- arxiv url: http://arxiv.org/abs/2009.05147v1
- Date: Tue, 1 Sep 2020 04:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 00:35:50.124364
- Title: Practical Cross-modal Manifold Alignment for Grounded Language
- Title(参考訳): 接地言語のための実践的クロスモーダルマニフォールドアライメント
- Authors: Andre T. Nguyen, Luke E. Richards, Gaoussou Youssouf Kebe, Edward
Raff, Kasra Darvish, Frank Ferraro, Cynthia Matuszek
- Abstract要約: 提案手法は,Procrustes解析などの後処理ステップの恩恵を受けることができるが,不要であることを示す。
本稿では,ロボットによる基礎言語学習システムの開発に広く用いられている2つのデータセットに対するアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 30.614837243507505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a cross-modality manifold alignment procedure that leverages
triplet loss to jointly learn consistent, multi-modal embeddings of
language-based concepts of real-world items. Our approach learns these
embeddings by sampling triples of anchor, positive, and negative data points
from RGB-depth images and their natural language descriptions. We show that our
approach can benefit from, but does not require, post-processing steps such as
Procrustes analysis, in contrast to some of our baselines which require it for
reasonable performance. We demonstrate the effectiveness of our approach on two
datasets commonly used to develop robotic-based grounded language learning
systems, where our approach outperforms four baselines, including a
state-of-the-art approach, across five evaluation metrics.
- Abstract(参考訳): 本稿では,三重項の損失を利用して,実世界のアイテムの言語に基づく概念の一貫性のある多モード埋め込みを共同で学習する。
rgb深度画像と自然言語記述からアンカー、ポジティブ、負のデータポイントをサンプリングすることで、これらの埋め込みを学習する。
私たちのアプローチは、合理的なパフォーマンスのためにそれを必要とするいくつかのベースラインとは対照的に、プロクセス分析のような後処理ステップの恩恵を受けるが、不要であることを示している。
本手法は,5つの評価指標において,最先端のアプローチを含む4つのベースラインを上回り,ロボットベースグラウンドド言語学習システムの開発に一般的に使用される2つのデータセットに対して,本手法の有効性を実証する。
関連論文リスト
- Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - A Multilingual Perspective Towards the Evaluation of Attribution Methods
in Natural Language Inference [28.949004915740776]
本稿では,自然言語推論(NLI)タスクに対する帰属的手法を評価するための多言語的手法を提案する。
まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。
次に、異なる出力機構と集約手法を考慮し、帰属手法の包括的な評価を行う。
論文 参考訳(メタデータ) (2022-04-11T22:11:05Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule [80.0853069632445]
視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
本稿では,言語モデルを用いて可能なすべての命令の分布を計算する生成言語基底ポリシーの設計と検討を行う。
実験では,提案手法がRoom-2-Room (R2R) とRoom-4-Room (R4R) データセット,特に未確認環境において差別的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-16T16:23:17Z) - Multilingual Chart-based Constituency Parse Extraction from Pre-trained
Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。
本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文 参考訳(メタデータ) (2020-04-08T05:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。