Fugu-MT 論文翻訳(概要): Robust and Interpretable Grounding of Spatial References with Relation Networks

論文の概要: Robust and Interpretable Grounding of Spatial References with Relation Networks

arxiv url: http://arxiv.org/abs/2005.00696v2
Date: Wed, 7 Oct 2020 04:05:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 12:25:32.471780
Title: Robust and Interpretable Grounding of Spatial References with Relation Networks
Title（参考訳）: 関係ネットワークを用いた空間参照のロバストかつ解釈可能な接地
Authors: Tsung-Yen Yang and Andrew S. Lan and Karthik Narasimhan
Abstract要約: 自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
参考スコア（独自算出の注目度）: 40.42540299023808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning representations of spatial references in natural language is a key challenge in tasks like autonomous navigation and robotic manipulation. Recent work has investigated various neural architectures for learning multi-modal representations for spatial concepts. However, the lack of explicit reasoning over entities makes such approaches vulnerable to noise in input text or state observations. In this paper, we develop effective models for understanding spatial references in text that are robust and interpretable, without sacrificing performance. We design a text-conditioned \textit{relation network} whose parameters are dynamically computed with a cross-modal attention module to capture fine-grained spatial relations between entities. This design choice provides interpretability of learned intermediate outputs. Experiments across three tasks demonstrate that our model achieves superior performance, with a 17\% improvement in predicting goal locations and a 15\% improvement in robustness compared to state-of-the-art systems.
Abstract（参考訳）: 自然言語における空間参照の表現の学習は、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。しかし、エンティティに対する明示的な推論の欠如は、入力テキストや状態観察におけるノイズに弱いアプローチをもたらす。本稿では,頑健で解釈可能なテキストの空間参照を,性能を犠牲にすることなく理解するための効果的なモデルを開発する。パラメータをクロスモーダルアテンションモジュールで動的に計算し、エンティティ間のきめ細かい空間関係をキャプチャするテキスト条件付き \textit{relation network} を設計した。この設計選択は、学習した中間出力の解釈可能性を提供する。 3つのタスクにまたがる実験により、このモデルが優れた性能を達成できることが示され、目標位置の予測が17\%改善され、最先端システムと比較して15\%堅牢性が向上した。

関連論文リスト

State Design Matters: How Representations Shape Dynamic Reasoning in Large Language Models [2.869209069091683]
状態を表すための設計選択は、情報そのものの可用性とは別として、パフォーマンスにおいて決定的な要素であることを示す。しかし,従来のLLMとVLMは長い地平線上でも不安定であり続けている。
論文参考訳（メタデータ） (2026-01-25T17:41:26Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文参考訳（メタデータ） (2023-05-19T09:26:02Z)
Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文参考訳（メタデータ） (2022-11-07T15:09:58Z)
SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。 5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-09-14T06:27:51Z)
Compositional Generalization in Grounded Language Learning via Induced Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文参考訳（メタデータ） (2022-07-06T08:46:27Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文参考訳（メタデータ） (2021-04-08T06:48:02Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。