Fugu-MT 論文翻訳(概要): SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space

論文の概要: SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space

arxiv url: http://arxiv.org/abs/2307.02269v1
Date: Wed, 5 Jul 2023 13:08:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 13:44:44.998819
Title: SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space
Title（参考訳）: SpaceNLI: 宇宙における推論の一貫性を評価する
Authors: Lasha Abzianidze, Joost Zwarts, Yoad Winter
Abstract要約: SpaceNLIと呼ばれる空間推論のためのNLIデータセットを作成します。データサンプルは、専門家による推論ラベルで注釈付けされた一連の推論パターンから自動的に生成される。本研究では,SpaceNLI上の複数のSOTA NLIシステムを用いて,データセットの複雑さと空間的推論のためのシステムの容量を測定する。
参考スコア（独自算出の注目度）: 0.6778628056950066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While many natural language inference (NLI) datasets target certain semantic phenomena, e.g., negation, tense & aspect, monotonicity, and presupposition, to the best of our knowledge, there is no NLI dataset that involves diverse types of spatial expressions and reasoning. We fill this gap by semi-automatically creating an NLI dataset for spatial reasoning, called SpaceNLI. The data samples are automatically generated from a curated set of reasoning patterns, where the patterns are annotated with inference labels by experts. We test several SOTA NLI systems on SpaceNLI to gauge the complexity of the dataset and the system's capacity for spatial reasoning. Moreover, we introduce a Pattern Accuracy and argue that it is a more reliable and stricter measure than the accuracy for evaluating a system's performance on pattern-based generated data samples. Based on the evaluation results we find that the systems obtain moderate results on the spatial NLI problems but lack consistency per inference pattern. The results also reveal that non-projective spatial inferences (especially due to the "between" preposition) are the most challenging ones.
Abstract（参考訳）: 多くの自然言語推論(NLI)データセットは, 否定, 時制とアスペクト, 単調性, 前提推定といった特定の意味現象をターゲットにしているが, 多様な空間表現や推論を含むNLIデータセットは存在しない。空間推論のためのNLIデータセットを半自動生成することで,このギャップを埋める。データサンプルは、専門家による推論ラベルで注釈付けされた一連の推論パターンから自動的に生成される。本研究では,SpaceNLI上の複数のSOTA NLIシステムを用いて,データセットの複雑さと空間推論のためのシステムの容量を測定する。さらに、パターン精度を導入し、パターンベースのデータサンプルでシステムの性能を評価する精度よりも信頼性が高く厳密な尺度であると主張している。評価結果から,空間的NLI問題の適度な結果が得られるが,推論パターン毎の一貫性は欠如していることがわかった。結果は、非射影空間推論(特に"between"の前提による)が最も難しいものであることも明らかにした。

関連論文リスト

Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。 STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文参考訳（メタデータ） (2025-05-18T07:39:17Z)
Adversarial Subspace Generation for Outlier Detection in High-Dimensional Data [41.09135146101542]
マルチビュー効果を数学的に定式化する新しい理論フレームワークであるMyopic Subspace Theory (MST)を紹介する。 MSTに基づいて、このような最適化問題を解決するために訓練された生成法であるV-GANを導入する。 42の実世界のデータセットに対する実験により、V-GANの使用は1クラスの分類性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-04-10T07:40:02Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文参考訳（メタデータ） (2024-05-22T22:22:25Z)
How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。 1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文参考訳（メタデータ） (2024-01-25T14:03:15Z)
Multi-Scales Data Augmentation Approach In Natural Language Inference For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文参考訳（メタデータ） (2022-12-16T23:37:44Z)
SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。 5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-09-14T06:27:51Z)
Automatically Identifying Semantic Bias in Crowdsourced Natural Language Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文参考訳（メタデータ） (2021-12-16T22:49:01Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Distance in Latent Space as Novelty Measure [0.0]
本稿では,データセット構築時のサンプルをインテリジェントに選択することを提案する。この選択手法は、2つの異なるサンプルがデータセット内の2つの類似したサンプル以上の価値があるという推定に基づいている。自己教師付き手法を用いて潜在空間を構築することにより、空間がデータによく適合し、事前ラベリングの労力を回避できることが保証される。
論文参考訳（メタデータ） (2020-03-31T09:14:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。