論文の概要: Robust and Interpretable Grounding of Spatial References with Relation
Networks
- arxiv url: http://arxiv.org/abs/2005.00696v2
- Date: Wed, 7 Oct 2020 04:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:25:32.471780
- Title: Robust and Interpretable Grounding of Spatial References with Relation
Networks
- Title(参考訳): 関係ネットワークを用いた空間参照のロバストかつ解釈可能な接地
- Authors: Tsung-Yen Yang and Andrew S. Lan and Karthik Narasimhan
- Abstract要約: 自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
- 参考スコア(独自算出の注目度): 40.42540299023808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning representations of spatial references in natural language is a key
challenge in tasks like autonomous navigation and robotic manipulation. Recent
work has investigated various neural architectures for learning multi-modal
representations for spatial concepts. However, the lack of explicit reasoning
over entities makes such approaches vulnerable to noise in input text or state
observations. In this paper, we develop effective models for understanding
spatial references in text that are robust and interpretable, without
sacrificing performance. We design a text-conditioned \textit{relation network}
whose parameters are dynamically computed with a cross-modal attention module
to capture fine-grained spatial relations between entities. This design choice
provides interpretability of learned intermediate outputs. Experiments across
three tasks demonstrate that our model achieves superior performance, with a
17\% improvement in predicting goal locations and a 15\% improvement in
robustness compared to state-of-the-art systems.
- Abstract(参考訳): 自然言語における空間参照の表現の学習は、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
しかし、エンティティに対する明示的な推論の欠如は、入力テキストや状態観察におけるノイズに弱いアプローチをもたらす。
本稿では,頑健で解釈可能なテキストの空間参照を,性能を犠牲にすることなく理解するための効果的なモデルを開発する。
パラメータをクロスモーダルアテンションモジュールで動的に計算し、エンティティ間のきめ細かい空間関係をキャプチャするテキスト条件付き \textit{relation network} を設計した。
この設計選択は、学習した中間出力の解釈可能性を提供する。
3つのタスクにまたがる実験により、このモデルが優れた性能を達成できることが示され、目標位置の予測が17\%改善され、最先端システムと比較して15\%堅牢性が向上した。
関連論文リスト
- Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。